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这 是 被 称 为 “波斯 李白 ”的 诗人 奥马 尔 : 海 亚 姆 (1048 一 1122) 的 
《 鲁 拜 集 》 中 的 诗句 。 作 为 一 名 精通 天 文 和 数学 的 大 学 者 ， 奥 马尔 认 
为 ， 宇 宙 的 规律 是 可 以 探知 的 ， 并 可 以 用 严密 而 美妙 的 数学 方式 表示 出 
来 。 前 定 与 随机 ， 必 人 然 与 偶然 ， 向 来 是 人 文科 学 中 长 期 争论 不 休 的 命 
题 。 自 然 科 学 理论 始终 受 实验 和 观测 的 检验 ， 而 它 的 每 一 个 重大 发 现 又 
都 会 反馈 到 文化 和 社会 的 层面 ， 对 人 的 哲学 和 历史 观 有 所 启示 。 


决定 性 和 概率 性 一 直 被 当 作 数 学 、 物 理 等 学 科 对 自然 界 的 搬 述 方 
式 。 在 牛顿 创立 古典 力学 之 后 的 250 年 间 ， 直 人 至 20 世 纪 20 年 代 ， 决 定论 
长 期 处 于 主导 地 位 ， 基 于 概率 论 的 统计 描述 或 者 说 数据 的 描述 ， 则 一 直 
属于 不 得 已 情况 下 所 采用 的 辅助 手段 。 决 定性 的 牛顿 力学 从 计算 和 预测 
的 观点 来 看 ， 实 际 上 也 具有 内 秉 随机 性 ， 这 就 是 微观 层次 上 的 混沌 运 
动 。 大 量 隐 藏 在 暗 数 据 背 后 的 茶 些 看 似 简 单 原 因 所 导致 的 复杂 后 采 ， 则 
渐渐 成 为 混沌 研究 的 重要 人 信息。 混沌 不 是 无 序 和 混乱 。 与 人 们 习 以 为 第 
的 周期 排列 或 对 称 形状 的 数据 相 比 ， 大 目 然 和 人 类 社会 中 的 很 多 数据 其 
实 就 是 一 种 没有 周期 性 次 序 的 混沌 。 在 理想 模型 中 ， 它 可 能 包含 着 无 穷 
的 内 在 层次 ， 层 次 之 间 存 在 目 相似 性 或 不 尽 相 似 。 在 观察 手段 和 技术 的 
分 辨 率 不 高 时 ， 只 能 看 到 每 一 个 层次 或 条 一 种 类 型 的 结构 。 但 技术 条 件 
改变 或 提高 后 ， 在 远离 不 能 识别 之 处 束 会 出 现 更 小 尺度 上 的 结构 。 零 维 
的 点 、 一 维 的 线 、 二 维 的 面 、 三 维 的 体 和 四 维 的 时 空 ， 是 人 们 现在 所 能 
认 知 的 数据 空间 。 如 果 在 不 远 的 将 来 ， 我 们 真 的 进入 一 个 超 数 据 时 代 ， 


现 有 的 技术 和 描述 手段 也 许 就 无 法 对 这 种 高 度 无 序数 据 的 混沌 运动 进行 
分 形 ， 而 关于 相 变 和 临界 现象 理论 的 框架 也 需要 一 个 新 的 重 构 。 


这 时 我 们 不 由 得 想到 那个 著名 的 洛 伦 效 “蝴蝶 效应 理论， 其实 和 这 
个 理论 相 联 系 的 还 有 一 个 被 称 为 “ 漠 流 及 生机 制 * 的 观点 ， 认 为 回 满 流 的 
转变 由 少数 自由 上 度 决 是 ， 经 过 两 三 次 突变 ， 运 动 束 到 了 维 数 不 高 的 奇怪 
吸引 子 上 。 这 里 所 谓 的 吸引 子 是 指 运动 轨迹 长 时 间 之 后 的 终极 形态 ， 它 
可 能 是 稳定 的 平衡 点 或 周期 性 的 轨道 ， 也 可 能 是 继续 不 断 变 化 、 没 有 明 
显 规则 或 次 序 的 许多 回转 曲线 。 无 论 是 蝴蝶 效应 还 是 消 流 发 生机 制 ， 其 
实 都 是 对 我 们 现在 正在 研究 的 激活 数据 学 的 一 种 理论 上 的 关照 和 呼应 。 
事实 上 ， 大 数据 乃至 超 数据 时 代 的 数据 运动 ， 就 是 这 样 一 种 处 于 混沌 和 
分 形 之 下 的 对 数据 运动 轨迹 及 其 规律 的 研究 。 许 多 看 起 来 杂乱 无 草 、 随 
机 起 伏 的 数据 变化 或 时 空军 越 ， 可 能 造成 的 融 是 类 似 亚马逊 级 别 的 数据 
风暴 。 如 果 说 上 述 蝴蝶 效应 粉碎 的 是 本 惑 无 法 实现 的 长 期 天 气 预报 的 约 
梦 ， 那 么 紧 接 着 的 奇怪 吸引 子 告诉 我 们 的 是 ， 人 类 对 于 天 和 气 的 实际 预报 
能 力 并 没有 因 那 只 蝴蝶 的 翅膀 而 受到 任何 影响 ， 相 反 ， 却 因 对 于 更 加 混 
沌 的 数据 的 研究 而 提高 了 。 激 活 数据 学 就 是 一 种 基于 复杂 理论 及 混沌 研 
客 的 关于 未 来 大 数据 乃至 超 数据 时 代 的 理论 假说 ， 瓯 像 上 面 讲 的 天 气 预 
报 ， 但 它 所 关心 的 并 不 是 下 个 星期 的 晴雨 冷 热 ， 而 可 能 是 未 来 10 年 耕种 
季节 的 平均 降水 量 和 平均 气温 。 激 活 数据 学 研究 使 以 往 根 据 统 计 原 则 所 
做 的 预报 上 升 为 数据 动力 学 的 预报 ， 也 就 是 应 用 了 似 是 随 机 现象 的 内 在 
规律 ， 从 而 提高 了 预测 单个 轨道 近期 行为 的 精确 度 ， 并 丰富 了 长 期 预报 
的 办 法 。 


同样 ， 我 们 还 可 以 考察 一 个 似 静 实 动 的 模型 。 让 沙子 从 一 个 漏斗 孔 
中 绥 缓 落 到 昌 面 上 ， 形 成 渐渐 变 大 的 沙 堆 ， 总 有 最 后 新 添加 的 菏 一 粒 沙 
子 会 在 整个 沙 堆 勉强 维持 平衡 的 锥 面 上 导致 一 次 “雪崩 ”， 使 一 氢 沙 子 滑 
到 堆 底 ， 雪 朋 留 下 的 小 洼地 会 被 后 续 的 沙 流 填 平 ， 直 到 下 一 次 更 大 的 雪 
月。 在 我 们 收集 所 有 这 些 雪 朋 的 数据 后 ， 可 以 友 现 它们 的 大 小 和 间隔 尊 
人 循 某 些 数 据 动力 规律 ， 而 沙 堆 模 型 无 颖 也 局 发 了 我 们 对 于 数据 激活 状态 


中 的 相 变 和 突变 的 研究 。 无 论 数 据 的 平衡 态 的 相 变 或 非 平衡 的 临界 多 么 
不 确定 ， 可 以 确定 的 是 ， 在 搜索 、 融 合 、 激 活 和 碰撞 等 一 系列 状态 下 ， 
数据 在 茶 一 个 临界 点 附近 的 扰动 必然 会 导致 某 种 全 局 性 后 果 。 当 然 ， 是 
人 否 存 在 可 以 被 “激活 ”的 “数据 蝴蝶 ”或 “数据 吸引 子 ”， 还 需要 我 们 进一步 
探寻 ， 但 这 并 不 否定 我 们 的 所 愿 ， 而 仅仅 需要 我 们 从 实际 数据 的 研究 和 
和 据 中 进一步 加 以 发 现 。 


作为 一 种 理论 假说 ， 诅 活 数据 学 吕 像 一 座 明 回 次 鞠 的 大 数据 宇宙 
的 “天 眼 *”。 它 是 未 来 人 类 进入 云 脑 时 代 的 预报 ， 是 关于 混沌 的 数据 世界 
的 跳出 决定 论 和 概率 论 的 非 此 即 彼 、 亦 此 亦 彼 的 复杂 理论 的 大 数据 思维 
范式 的 昔 命 。 从 一 定 意 义 上 来 说 ， 大 数据 就 是 面 问 未 来 社会 人 类 需要 破 
译 的 “基因 ”。 正 如 因 发 明 一 种 DNA《〈 胶 氧 核糖 核酸 ) 快速 测序 方法 而 获 
得 1980 年 诡 贝 尔 化 学 奖 的 吉尔 伯 特 针对 生物 学 研究 范式 的 变化 指出 
的 ,，“ 正 在 兴起 的 新 的 范式 在 于 ， 所 有 的 基因 将 被 知晓 ， 今 后 生物 学 研 
完 项 目的 起 点 将 是 理论 的 。 一 位 科学 家 将 从 理论 的 假设 开始 ， 然 后 才 转 
问 实 验 室 去 检验 该 假设 "。 是 的 ， 借 助 日 渐 深 入 的 人 工 乔 能 的 及 展 ， 大 
数据 的 理论 研究 正在 激发 人 类 的 新 的 假想 和 猜测 。 正 是 这 种 假想 和 猜 
测 ， 让 我 们 以 茶 种 “对 称 破 缺 ”的 方式 去 探知 深 忱 未 知 的 数据 海洋 ， 发 现 
诸多 社会 发 展 法 则 背后 产生 影响 甚至 文 配 的 物质 和 数字 的 力量 。 


人 生 是 一 种 快 变 量 ， 语 言 是 一 种 慢 变 量 ， 而 数据 将 是 一 种 突变 量 。 
虽然 “未 知 ” 依 然 是 现实 的 一 部 分 ， 但 是 身 处 海量 数据 大 爆发 时 代 ， 人 们 
坚信 ， 未 来 已 来 ! 从 “ 块 数据 1.0” 到 现在 的 “ 块 数据 4.0”， 我 们 一 直 在 持 
续 探 讨 这 个 已 来 的 未 来 ， 尤 其 是 基于 对 “以 人 为 原 操 的 数据 社会 学 的 范 
式 革 命 ”的 认 知 。 事 实 上 ， 从 一 开始 ， 我 们 就 没有 把 大 数据 仅仅 看 作 所 
请 的 “大 ”的 数据 ， 而 是 把 大 数据 看 作 一 种 “ 活 ” 的 数据 ， 因 为 只 有 激活 ， 
大 数据 才 有 生命 ， 才 有 社会 属性 ， 才 能 成 为 未 来 世界 人 们 赖 以 生存 与 发 
展 的 土壤 和 空气 。 最 后 ， 套 用 《 焊 裂 》 一 书 中 关于 现代 世界 生存 的 九 大 
原则 中 “系统 优 于 个 体 ” 的 表述 : 真正 具有 竞争 性 的 是 一 个 系统 ， 而 非 一 
个 特别 强大 的 个 体 ; 是 一 套 能 够 保证 不 断 成 功 的 制度 ， 而 不 是 一 个 天 才 


个 人 的 行为 。 同 样 ， 激 活 数 据 学 就 是 这 样 一 个 思想 的 系统 ， 束 是 要 为 我 
们 喘 处 的 这 个 大 数据 时 代 找 到 一 个 解决 方案 ， 这 个 方案 可 以 构建 一 个 融 
合 数据 、 计 算 和 场景 的 系统 ， 让 我 们 在 大 数据 的 时 空中 真正 < 思考 和 行 
动 "起 来 。 世 界 正 处 于 根本 结构 性 变革 中 ， 我 们 必须 具备 这 样 一 种 能 
力 ， 即 下 意识 地 适应 和 发 现 因 不 适应 我 们 的 旧 习 惯 而 被 忽视 的 事情 。 


连 玉 明 
大 数据 战略 重点 实验 室 主任 
2018 年 4 月 3 日 于 北京 


绪论 
六 数据 时 代 的 解决 方案 


本 书 探讨 的 主题 是 大 数据 时 代 激 活 数据 学 的 提出 、 运 行 机 理 及 场景 
应 用 。 激 活 数据 学 是 以 充分 发 挥 人 机 群体 智能 为 核心 ， 综 合 运用 数据 科 
学 、 生 命 科 学 和 社会 科学 提出 的 海量 数据 存储 、 处 理 的 解决 方案 。 激 活 
数据 学 将 确立 一 个 新 的 观察 人 类 智能 和 机 器 智能 的 视角 ， 引 导 人 们 重新 
审视 数据 无 限 膨 胀 可 能 造成 的 人 类 认 知 隐 碍 ， 重 新 思考 维持 一 个 健康 、 
安全 和 有 效 的 数字 社会 的 根本 办 法 ， 建 立 与 人 类 智能 复杂 性 同步 的 人 工 
智能 系统 ， 开 局 用 复杂 性 系统 思维 认识 未 来 世界 和 改造 未 来 世界 之 旅 。 


大 数据 时 代 面 临 的 问题 与 挑战 


在 人 类 文明 的 伊始 ， 人 与 人 的 第 一 声 交 流 即 意味 看 “连接 ”的 开始 。 
语言 使 人 与 人 连接 ， 并 促使 用 于 记载 事物 的 文字 、 数 字符 号 产生 ， 这 样 
的 “连接 *” 便 产生 了 “数据 *"， 并 演化 为 人 类 文明 最 初 的 信息 与 知识 。 在 漫 
长 的 农耕 文明 时 代 , “连接 ”主要 以 语言 沟通 和 书面 文字 沟通 的 形式 存 
在 。 进 入 工业 文明 时 代 , “连接 ”开始 通过 无 线 电台 、 电 报 、 电 视 的 形式 
存在 ， 但 这 样 的 “连接 ?产生 的 信息 往往 是 单 向 性 且 缺 乏 互动 的 。 互 联网 
时 代 ， 人 和 人 开始 通过 网 络 进行 复杂 交错 的 互动 连接 。 社 区 网 站 、 电 子 
邮件 、 搜 索引 擎 、 聊 天 工具 .…… 人 类 建立 连接 的 方式 趋 于 多 样 化 、 多 维 
化 ， 人 类 社会 产生 的 数据 也 因而 大 量 积累 。 与 此 同时 ， 数 据 的 价值 越 来 
越 受 到 人 们 的 重视 。 数 据 深刻 作用 于 政治 、 经 济 、 文 化 等 领域 ， 市 来 更 
多 的 创新 机 会 ， 从 生产 、 生 活 到 科研 ， 一 个 大 数据 时 代 正 在 开局 。 


在 美丽 的 贵州 省 黔 南 州 布依 族 苗 族 自 治 州 平 塘 县 ， 被 称 为 "中国 天 
眼 ” 的 世界 上 最 大 的 单口 径 射 电 望 远 镜 一 -FAST (500 米 口径 球面 射电 
望 远 锐 ) 已 于 2016 年 9 月 25 日 落成 月 用 。FAST 的 计算 速度 需 达到 每 秒 
200 万 亿 次 以 上 ， 存 储 容量 需 达 到 10PB .三 以 上 。 这 一 世界 级 的 工程 将 帮 
助人 们 捕捉 到 更 多 来 自 宇宙 的 信息 ， 它 的 背后 是 “天 文 级 ”的 海量 数据 存 
储 和 复杂 的 计算 。 


随 痢 时 间 的 推移 、 科 学 任务 的 深入 ， 以 及 数据 的 大 量 采 集 ， 未 来 对 
计算 速度 和 存储 容量 的 需求 将 焊 炸 式 增长 ， 数 据 量 和 计算 量 都 将 “大 得 
惊人 ”。 


数据 是 没有 边际 的 ， 而 计算 力 、 和 存储 力 始终 存在 物理 极限 。 在 过 去 
很 长 一 段 时 间 里 ， 科 技 日 新 月 寞 的 发 展 依赖 摩 尔 定律 。 当 摩尔 定律 逐渐 
失效 时 ， 数 据 的 膨胀 是 否 将 引发 世界 性 的 数字 爆炸 ? 


人 们 寄 希 望 于 量子 计算 ， 量 子 计算 将 有 可 能 使 计算 机 的 计算 能 力 远 
远 超过 今天 的 计算 机 ， 但 仍然 存在 很 多 障碍 。 如 何 长 时 间 地 保持 足够 多 
的 量子 比特 的 量子 相干 性 ， 同 时 又 能 够 在 这 个 时 间 段 之 内 做 出 足够 多 的 
具有 超 高 精度 的 量子 逻辑 操作 ， 提 高 所 需 量子 装置 的 准确 性 ， 还 面临 许 
多 困难 。 


人 类 作为 自然 界 中 最 伟大 的 智能 体 已 经 进化 了 上 百 万 年 ， 人 类 所 具 
有 的 智能 是 大 目 然 贱 了 予 人 类 最 高 级 的 礼物 。 今 后 ， 人 类 智能 仍 将 是 人 造 
系统 模仿 和 研究 的 对 象 。 人 类 未 来 对 数据 的 处 理 ， 要 更 多 地 模仿 人 脑 对 
数据 的 处 理 方式 ， 人 脑 束 是 世界 上 最 好 的 “量子 计算 机 ”。 


目前 人 工 智 能 的 发 展 水 平 可 以 用 三 个 维度 来 描述 ， 即 强度 、 扩 展 性 
和 能 力 。 强 度 是 指 人 工 智 能 系统 的 智能 化 程度 ， 扩 展 性 是 指 人 工 智 能 系 
统 可 以 解决 的 问题 的 范围 ， 能 力 是 指 人 工 智能 系统 所 能 提供 的 平均 解决 
方案 的 质量 。 虽 然 我 们 已 经 在 专用 人 工 知 能 领域 取得 了 突破 性 进展 ， 但 
目前 人 工 智 能 水 平 仍然 停留 在 “有 智能 没 智 总， 有 智商 没 情 商 ， 会 计算 


不 会 算计 ， 有 专 才 无 通才 ”的 水 平 。 其 特点 是 能 力 单一 ， 只 能 在 某 个 特 
定 领域 内 发 挥 作用 。 在 人 工 智 能 2.0 时 代 ， 我 们 期 待 一 个 新 的 框架 : 首 
先 ， 在 人 的 逻辑 层次 可 辩 明 ， 其 次 ， 可 以 处 理 大 规模 数据 ;最 后 ， 可 以 
基于 一 小 组 标记 数据 进行 学 习 。 我 们 认为 ， 将 数据 驱动 的 机 器 学 习 方 法 
与 知识 引导 方法 相 结 合 ， 将 为 人 工 智能 的 未 来 推 开 一 扇 新 的 大 门 。 


探索 解决 之 道 _ ”激活 数据 学 


受 人 脑 处 理 数 据 方式 的 局 发 ， 本 书 提 出 了 一 种 新 的 处 理 海量 数据 的 
一 般 性 框架 一 一 激活 数据 学 。 


激活 数据 学 从 复杂 理论 出 发 ， 将 产生 智能 所 依赖 的 数据 、 软 件 硬件 
环境 、 交 互 规则 等 视 作 一 个 具有 “简单 性 、 局 部 性 、 全 局 性 、 内 聚 力 、 
动态 性 ”的 开放 复杂 系统 ， 智 能 产生 的 过 程 即 开放 复杂 系统 中 各 个 具有 
局 部 目标 和 行为 的 自主 体 通 过 自主 行为 及 动态 环境 相互 作用 达到 整体 的 
全 局 目标 所 涌现 的 群体 智能 ， 这 种 涌现 的 群体 智能 能 够 高 效 求解 问题 。 


油 活 数据 学 中 采用 块 数据 模型 作为 数据 模型 。 块 数据 把 各 种 分 散 的 
尽数 据 和 分 割 的 条 数据 汇 育 在 一 个 特定 平台 上 并 使 之 发 生 持 续 的 聚合 效 
应 。 块 数据 的 聚合 打破 了 传统 信息 不 对 称 和 物理 区 域 、 行 业 领 域 对 数据 
流动 的 限制 ， 高 度 关 联 的 各 类 数据 可 以 在 没有 任何 障碍 和 限制 的 条 件 下 
目 由 流动 、 相 互 作 用 ， 为 智能 的 产生 创造 了 条 件 。 


激活 数据 学 的 核心 是 将 人 类 认 知 能 力 与 计算 机 快速 运算 和 海量 存储 
的 能 力 结合 起 来 。 一 方面 ， 提 高 智能 系统 的 置信 度 ， 避 免 人 工 智能 撤 术 
的 局 限 性 所 造成 的 风险 甚至 危害 ， 为 一 方面 ， 建 六 人 类 参与 的 混合 增强 
智能 ， 将 海量 数据 通过 人 机 混合 增强 智能 实现 最 佳 释放 。 这 种 形态 是 人 
工 智 能 可 行 的 、 重 要 的 成 长 模式 。 


数据 搜索 、 关 联 融 合 、 自 激活 、 热 点 减 量化 、 群 体 智能 是 激活 数据 
学 的 5 个 运行 阶段 ， 构 成 了 激活 数据 学 模型 化 运行 的 完整 流程 (如 图 0-1 
所 示 ) 。 


群体 智能 
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图 0-1 激活 数据 学 模型 


数据 搜索 是 激活 数据 学 的 数据 准备 阶段 ， 通 过 对 数据 的 主动 搜索 和 
目 我 的 深度 学 习 ， 透 彻 感知 、 精 确 描述 现实 物理 空间 的 多 模 态 场景 信 
恩 ， 构 建 更 加 丰富 的 数据 特征 维度 ， 更 快 、 更 精准 地 搜索 到 目标 主体 ， 
为 机 器 学 习 准 备 大 量 数据 作为 “燃料 来 源 * 和 “ 助 推 锅 ”。 


关联 融合 是 激活 数据 学 的 数据 预 处 理 阶 段 ， 对 寞 构 、 多 源 、 多 模 态 
感知 数据 进行 信息 融合 ， 打 破 数 据 壁 爸 ， 让 不 同 领域 、 不 同类 型 的 数据 
成 为 高 度 关 联 的 整体 ， 为 智能 的 产生 创造 条 件 。 


自 激活 是 激活 数据 学 的 智能 产生 阶段 ， 是 从 “数据 ?跃迁 为 “ 数 聚 "的 
阶段 ， 智 能 个 体 通 过 深度 神经 网 络 学 习 将 数据 内 化 为 知识 ， 积 累 或 学 习 
经 验 和 知识 ， 并 可 根据 各 自 的 意图 与 其 他 智能 体 进行 交互 ， 修 改 目 己 的 


行为 以 适应 新 环境 。 


热点 减 量化 是 激活 数据 学 的 智能 盘 选 阶段 ， 对 上 自 激活 阶段 产生 的 无 
效 的 、 会 对 预 判 结果 产生 干扰 的 数据 进行 过 泪 和 筛选 ， 实 现 数据 处 理 资 
源 的 优化 配置 ， 提 高 数据 处 理 效率 ， 为 下 一 阶段 更 好 、 更 快 的 决策 提供 
资源 和 环境 保障 。 


群体 智能 是 激活 数据 学 的 智能 放大 阶段 ， 通 过 人 机 协作 强化 ， 突 破 
各 目的 局 限 和 在 东 种 程度 上 达到 协同 作用 ， 释 放出 超越 个 体 智 能 的 群体 
智能 ， 提 升 决策 的 准确 性 和 稳定 性 。 


云 脑 一 一 人 工 乔 能 的 未 来 


由 于 人 类 面临 的 许多 问题 具有 不 确定 性 、 脆 弱 性 和 开放 性 ， 任 何 智 
能 程度 的 机 器 都 无 法 完全 取代 人 类 。 即 使 为 人 工 智 能 系统 提供 了 足够 或 
无 限 的 数据 资源 ， 人 类 干预 也 不 能 排除 在 智能 系统 之 外 。 人 工 智 能 中 有 
许多 问题 需要 解决 ， 比 如 如 何在 人 机 交互 系统 中 理解 人 类 语言 的 细微 差 
别 和 模糊 性 ， 特 别 是 如 何 避 免 人 工 智能 拉 术 的 局 限 性 所 造成 的 风险 甚至 
人 危害。 为 了 解决 这 些 问 题 ， 一 些 重要 的 应 用 ， 如 工业 风险 控制 、 医 疗 诊 
盯 和 刑事 司法 系统 ， 必 须 引 入 人 的 监督 、 互 动 和 参与 。 


目前 人 工 智 能 的 学 习 方 式 已 经 挑战 了 人 类 现 有 大 数据 处 理 能 力 的 极 
限 ， 动 用 了 大 量 社会 资源 。 比 如 让 计算 机 使 用 深度 学 习 模 型 观看 了 1 
000 万 个 视频 片段 ， 才 让 计算 机 学 会 如 何在 视频 中 识别 猫 脸 ， 这 是 一 岁 
婴儿 几 天 就 可 以 学 会 的 人 简单 的 事情 。 真 正 的 “强人 工 知 能 ” 则 能 灵活 自主 
地 学 习 自 己 想 要 学 会 的 内 容 ， 能 独立 思考 ， 具 备 处 理 多 类 型 任务 和 突 发 
情况 的 能 力 ， 它 可 以 在 各 种 环境 中 解决 复杂 问题 ， 更 接近 人 类 的 思维 ， 
未 来 发 展 也 更 具 价 值 。 


未 来 已 来 ， 这 将 是 一 个 电脑 智能 与 人 脑 智能 相互 融合 的 时 期 一 一 云 
脑 时 代 ， 这 种 融合 将 开创 一 个 全 新 的 世界 ， 在 这 个 新 世界 中 ， 虚 拟 与 现 
实 、 人 类 与 机 器 的 界限 将 变 得 模糊 ， 人 类 与 计算 机 的 相互 赋 能 或 将 永久 
改变 人 类 的 命运 ， 在 一 个 万 联网 、 人 、 机 所 构成 的 未 来 世界 ， 必 将 催生 
新 的 世界 观 、 新 的 科技 秩序 与 道德 秩序 。 


人 工 智 能 滔 潮 席卷 而 至 ， 谁 都 无 法 阻挡 。 


1. 1PB=250B 。 


超 数 据 时 代 的 数据 拥 声 


5G《 第 五 代 移 动 通 信 技 术 ) 、 物 联网 、 人 工 知 能 等 新 一 代 信息 技 
术 与 经 济 社会 各 个 领域 快速 发 展 和 深度 融合 ， 数 字 、 文 字 、 图 像 、 音 
频 、 视 频 等 数据 形态 大 大 丰富 了 数据 种 类 ， 数 据 正 以 前 所 未 有 的 速度 极 
速 增长 和 积累 。 这 一 深刻 变化 不 仅 促 成 了 数据 量 及 处 理 能 力 遵循 摩尔 定 
律 爆发 式 增 长 ， 而 且 彻底 题 履 了 数据 的 传统 形态 ， 将 人 类 社会 带 入 了 数 
气急 剧 膨胀 的 超 数据 时 代 。 


在 数据 相对 匮乏 的 小 数据 时 代 ， 数 据 的 采集 、 搜 索 等 搁 术 手段 的 落 
后 导致 人 类 由 于 可 获得 数据 的 有 限 性 ， 难 以 对 事物 做 出 准确 的 判断 和 预 
测 ， 如 同 处 在 黑暗 中 ， 辨 不 清 方 向 。 进 入 超 数据 时 代 ， 由 数据 短缺 变 为 
数据 过 剩 。 信 息 爆 炸 与 数据 焊 炸 市 来 海量 信息 、 垃 圾 数据 泛滥 ， 使 得 人 
类 被 无 边界 的 数据 层 层 包 衷 ， 最 终 形成 认 知 障碍 。 我 们 把 这 种 问题 和 困 
境 称 为 “数据 拥堵 ”。 


治理 数据 拥堵 是 超 数据 时 代 的 重大 议题 。 科 学 的 问题 要 用 科学 的 办 
法 来 解决 。 在 块 数据 的 思维 结构 下 ， 融 入 数据 科学 、 生 命 科 学 、 社 会 科 
学 、 智 能 科学 等 前 治 科学 理论 ， 在 不 明显 增加 成 本 的 前 提 下 尽 可 能 地 对 
垃圾 数据 、 抑 余数 据 进行 热点 减 量 ， 把 超 数据 从 * 厚 ”做 到 “ 浒 ”， 
从 “大 ”做 到 “小 *， 为 人 类 社会 清除 认 知 障碍 ， 平 衡 利 葡 下 盾 ， 提 供 可 行 
方案 。 


第 一 节 


小 数据 时 代 、 大 数据 时 代 和 超 数 据 时 代 


人 类 原始 时 代 早 期 所 创造 的 数 的 概念 、 数 的 方法 和 数 的 科学 ， 为 东 
西方 文化 的 发 展 提供 了 共同 的 智 意 财富 。 人 类 对 数据 价值 的 认识 可 以 粗 
略 地 分 为 三 个 阶段 : 一 是 以 计算 机 为 基础 ， 退 求 数据 精细 化 的 小 数据 时 
代 ; 二 是 以 系统 性 数据 资源 为 基础 ， 深 入 挖掘 数据 关系 的 大 数据 时 代 ; 
三 是 以 数据 大 爆炸 为 标志 ， 实 现 数据 拥堵 “治理 ”的 超 数 据 时代 。 


(一 ) 小 数据 时 代 


数 、 数 字 和 数据 。 数 的 概念 从 萌芽 到 诞生 经 历 了 极其 漫长 的 尹 月 ， 
可 以 退 溯 到 人 类 蒙昧 时 期 。 数 的 概念 始 于 人 类 在 和 采集、 狩猎 等 生产 活动 
中 ， 通 过 对 不 同事 物 的 比较 ， 逐 渐 认 识 到 事物 之 间 存 在 茶 种 共通 的 特 
征 ， 即 在 同类 事物 中 存在 最 小 事物 个 体 ， 即 事物 的 单位 性 。 同 时 ， 意 识 
到 非 同 类 事物 之 间 数 量 的 其 他 共同 特点 ， 如 在 数量 上 相互 间 可 以 构成 对 
应 的 关系 ， 这 种 非 同类 事物 所 共有 的 数量 的 抽象 性 质 ， 就 是 数 。 三 数字 
古 数 的 具体 表现 形式 。 公 元 前 四 五 干 年 ， 尼罗河 流域 的 古 埃 及 人 创造 了 
十 进 制 象 形 文 数字 ; 远古 时 代 ， 生 活 在 中 美洲 的 玛雅 人 创造 了 玛雅 数 
字 ; 黄河 流域 的 中 华 民族 创造 了 以 商 代 的 甲骨 文 数 字 和 西周 的 钟 易 数 字 
为 代表 的 中 国 数字 ， 到 唐 代 前 后 形成 汉字 数字 。 后 来 ， 随 大 数学 的 发 
展 ， 也 逐步 产生 了 不 同 于 文字 数字 的 符号 数字 ， 如 罗马 数字 、 阿 拉 伯 数 
字 等 。“ 数 据 ” 一 词 最 早 源 于 拉丁 语 ,“ 数 ”的 概念 是 在 “ 量 ” 的 基础 上 进 一 
步 扩 展 而 建立 起 来 的 ， 量 成 为 数据 的 基本 单位 。 在 计算 机 普及 化 的 今 
天 ， 数 字 化 已 成 为 现实 ， 因 此 数据 形式 已 经 扩展 到 量 之 外 ， 数 及 可 以 转 


换 为 数字 的 图 形 、 表 格 、 文 字 都 可 成 为 数据 的 组 成 部 分 。 数 据 不 仅 限 于 
表征 事物 特定 属性 ， 更 为 重要 的 是 成 为 推演 事物 运动 、 变 化 规律 的 依据 
和 基础 。 


小 数据 时 代 是 以 经 验 科学 为 基础 判断 数据 价值 的 时 代 。 早 在 数 干 年 
以 前 ， 人 类 就 开始 计量 数据 、 运 用 数据 和 分 析 数 据 。 人 类 有 记载 的 最 早 
的 计数 发 生 在 公元 前 8000 年 。《 易 经 : 系 辞 下 》 有 记载 :“ 上 十 结 绳 而 
治 ， 后 世 革 人 吻 之 以 书 契 。”《 易 九 家 言 》 记 载 为 :“ 事 大 ， 大 结 其 绳 ; 
事 小， 小结 其 强 。 结 之 多 少 ， 随 物 众 舞 。” 在 西方 ， 自 壮 经 时 代 开始 ， 
政府 就 通过 人 口 普 碍 建立 大 型 的 国民 数据 库 。 同 样 ， 在 古代 波斯 也 有 结 
绳 记事 的 记载 。 据 说 波斯 王 大 流 士 给 他 的 指挥 官 一 根 打 了 60 个 结 的 强 
子 ， 并 对 他 们 说 :“ 爱 奥 尼 亚 的 男子 汉 们 ， 从 你 们 看 见 我 出 征 斯 基 泰 那 
天 起 ， 每 天 解 开 绳子 上 的 一 个 结 ， 到 解 完 最 后 一 个 结 那天 ， 要 是 我 没 回 
来 ， 就 收拾 你 们 的 东西 ， 目 己 开 船 回去 。” 从 古人 结 绳 记事 起 ， 人 类 数 
十 万 年 依靠 数量 概念 和 数量 科学 推动 着 社会 经 济 与 人 类 目 身 的 发 展 。 人 
类 的 移 知 凭借 目 吴 经 验 和 观察 所 得 ， 发 现 了 数据 对 于 目 然 界 的 物质 生 
产 、 社 会 界 的 精神 生产 及 人 类 目 身 的 目 我 生产 、 存 在 与 发 展 的 重要 价 
值 。 


小 数据 时 代 ， 人 类 收集 、 挖 掘 和 使 用 样本 数据 的 能 力 处 于 较 低 水 
平 ， 也 没有 收集 和 处 理 大 规模 数据 的 能 力 ， 就 利用 整体 与 部 分 之 间 的 关 
系 肥 明 一 种 方法 来 用 部 分 的 数据 证 实 尽 可 能 重大 的 发 现 ， 这 就 是 统计 学 
的 由 来 。 这 种 方法 利用 了 整体 与 部 分 的 关系 ， 部 分 具有 整体 的 一 些 特 
征 ， 可 以 从 部 分 认识 整体 。 在 统计 大 规模 数据 时 ， 人 们 会 选取 其 中 的 一 
部 分 作为 样本 ， 对 样本 进行 分 析 ， 从 而 达到 对 整体 数据 的 推算 ， 这 就 古 
采样 分 析 法 。 后 来 ， 人 们 意识 到 采集 的 样本 并 不 是 越 多 越 好 ， 而 是 随机 
性 与 精确 性 成 正比 ， 样 本 选择 的 随机 性 比 样本 数量 更 重要 。 从 此 ， 随 机 
采样 变 得 非常 重要 ， 成 为 现代 测绘 和 现代 测量 领域 的 主心骨 ， 它 可 以 通 
过 少量 的 随机 样本 ， 对 整体 数据 进行 推算 和 统计 ， 而 且 拥 有 很 高 的 精确 
率 ， 这 无 疑 是 在 小 数据 时 代 不 可 收集 和 分 析 全 部 数据 的 情况 下 所 能 达到 


的 最 完美 的 结果 。' 


人 口 普 碍 是 一 种 国家 层次 的 重要 的 “数据 指标 行动 ”。 据 有 关 资 料 记 
载 ， 中 国 是 世界 上 最 早 统计 人 口 的 国家 之 一 。 相 传 最 早 在 公元 前 210 年 
前 的 夏 蜗 时 代 就 有 过 人 口 统计 。 中 国 古 代 封建 王朝 设 并 “ 户 部 ”， 户 部 主 
管 户口 、 赋 税 等 ， 是 负责 统计 人 口 的 机 构 。 西 周 的 人 口 统计 不 但 有 公开 
的 人 口 调查 ， 而 且 有 专 司 人 口 统计 的 官吏 ， 称 为 " 司 民 ”。《 周 礼 秋 
官 》 载 :“ 司 民 掌 登 万 民 之 数 。 自 生 齿 以 上 ， 皆 书 于 版 。 因 其 中 国 ， 与 
其 都 避 ， 及 其 郊野 ， 寞 其 男女 ， 岁 登 下 其 死生 。” 这 里 ， 我 们 不 难看 
出 ， 周 朝 时 人 口 普 查 就 已 经 初步 设立 了 年 龄 、“ 国 别 *”、 城 乡 、 性 别 、 生 
死 等 人 口 的 重要 指标 。 东 汉 时 期 的 户口 调查 进一步 制度 化 ， 称 为 “ 案 
比 ?， 即 案 验 、 比 较 ， 在 每 年 的 人 月 进行 。 中 国 魏 普 时 期 星 甫 衣 闭 的 
《帝王 世纪 》 记 载 :“ 轴 平 水土 ， 还 为 九州 ， 今 《 画 贡 》 是 也 。 是 以 其 
时 九州 之 地 ， 几 二 和 干 四 百 三 十 万 八 干 二 十 四 需 ， 定 屡 者 九 百 三 十 万 六 干 
三 二 四 网 盖 不 是 旺 有 十 瑟 目 万 二 天 。 民 口 和 三 自 竹 十 于 万 三 和 十 九 让 二 
十 三 人 。?” 南 朝 宋 范 畔 的 《后 汉 书 》 与 宋 元 之 际 马 问 临 的 《文献 通 
考 》， 都 有 同样 记载 。 有 的 统计 学 者 认为 这 是 “我 国 最 早 的 统计 数字 资 
料 ”。 在 数 千年 的 农业 社会 中 ， 人 类 不 断 探索 新 的 科学 技术 ， 但 是 对 统 
计数 据 的 收集 、 挖 掘 和 使 用 始终 处 于 较 低 水 平 。 


计算 机 的 诞生 和 发 展 促使 小 数据 时 代 的 分 析 方 法 由 经 验 化 向 精细 化 
转变 。 在 计算 机 出 现 之 前 ， 人 类 的 经 济 和 政治 生活 根本 就 不 是 以 数据 为 
基础 的 ， 数 据 仪 仅 作为 一 种 计量 单位 而 存在 。 目 人 类 第 一 合计 算 机 
ENIAC【〔 埃 尼 阿 殉 ) 问世 以 来 ， 以 计算 机 技术 为 主导 的 信息 化 、 数 字 化 
时 代 的 不 断 发 展 ， 为 数据 收集 、 整 理 、 分 析 和 使 用 提供 了 前 所 未 有 的 便 
利 : 数据 收集 更 加 便捷 ， 数 据 整理 更 加 科学 ， 数 据 分 析 更 加 深入 ， 数 据 
使 用 更 加 广泛 。 但 是 ， 这 一 阶段 计算 机 技术 的 主要 应 用 范围 局 限 在 数值 
领域 ， 追 求 数据 的 丰富 性 和 精细 化 。 自 20 世 纪 90 年 代 起 ， 网 络 技术 、 数 
码 技术 和 电子 信息 系统 的 发 展 ， 推 动 计算 机 技术 从 数值 领域 友 展 到 非 数 
值 领域 。 数 据 技 术 经 历 了 一 次 革命 性 的 变化 ， 多 媒体 技术 将 文字 、 图 


形 、 影 像 、 首 啊 和 动画 技术 融 为 一 体 ， 数 据 的 生产 、 复 制 和 存储 能 力 急 
又 增强 。 世 界 各国 相 继 实施 和 推进 数字 化 战略 ， 数 字 城 市 、 数 字 社 区 和 
数字 家 许 不 断 涌 现 。 从 磁盘 、 光 盘 到 互联 网 、 传 统 媒体 数字 化 转型 ， 以 
手机 禹 动 的 新 型 移动 传输 方式 的 发 展 ， 大 大 提升 了 大 规模 数据 传输 速 
度 。 小 数据 时 代 逐 渐 问 大 数据 时 代 过 渡 。 


(二 ) 大 数据 时 代 


美国 人 迈克 尔 : 考 克 斯 和 戴 维 : 埃 尔 斯 试 思 被 认为 是 最 早 提出 “大 数 
据 ?” 概 念 的 工程 师 。1997 年 10 月 ， 迈 克 尔 . 考 克 斯 和 戴 维 . 埃 尔 斯 斌 思 在 第 
八 届 美 国电 气 电 子 工程 师 协 会 (IEEE) 关于 可 视 化 的 会 议论 文集 中 发 表 
了 题 为 “为 外 存 模 型 可 视 化 而 应 用 控制 程序 请 求 页 面 调 度 ” 的 文章 。“ 可 
视 化 对 计算 机 系统 提出 了 一 个 有 趣 的 挑战 : 通常 情况 下 数据 集 相 当 大 ， 
耗 尽 了 主 存储 器 、 本 地 磁盘 甚至 远程 磁盘 的 存储 容量 。 我 们 将 这 个 问题 
称 为 "大 数据 :。 当 主 存储 器 无 法 容纳 数据 集 ， 或 者 当 本 地 磁盘 都 无 法 容 
纳 数 据 集 的 时 候 ， 最 常用 的 解决 办 法 就 是 获取 更 多 的 资源 。” 该 文 是 在 
美国 计算 机 学 会 的 数字 图 书馆 中 第 一 篇 使 用 “大 数据 ”这 一 术语 的 文章 。 


2000 一 2010 年 被 视 为 “大 数据 时 代 ” 喝 基 的 10 年 。 中 国 互联 网 数据 中 
心 估计 ，2002 年 世界 产生 了 5EB ”三 新 数据 ，2006 年 产生 了 161EB 新 数 
据 ，2006 一 2010 年 ， 每 年 为 数字 宇宙 所 增加 的 信息 将 是 2006 年 的 6 倍 
多 ， 达 到 988EB， 或 者 说 每 18 个 月 就 翻 一 番 。 实 际 上 ， 据 2010 年 和 2011 
年 同 项 研究 所 发 布 的 信息 ， 每 年 全 球 所 创造 的 数字 化 数据 总 量 超过 了 这 
个 预测 ，2010 年 达到 了 1 200EB，2011 年 增长 到 了 1800EB。 三 


2012 年 ， 全 球 数据 量 已 经 从 TB 三 级 别 跃升 到 PB、EB 乃 至 ZB 三 级 
别 。 国 际 数据 公司 (IDC) 的 研究 结果 表明 ，2008 年 全 球 产生 的 数据 量 
为 0.49ZB，2009 年 的 数据 量 为 0.8ZB，2010 年 的 数据 量 为 1.2ZB，2011 年 


的 数据 量 更 是 高 达 1.82ZB， 相 当 于 全 球 每 人 至 少 产生 200GB 三 的 数 
据 。 到 2012 年 为 止 ， 人 类 生产 的 所 有 印刷 材料 的 数据 量 是 200PB， 全 人 
类 历史 上 说 过 的 所 有 话 的 数据 量 大 约 是 5EB。 美 国 IBM (国际 商用 机 器 
公司 ) 的 研究 称 ， 在 整个 人 类 文明 所 获得 的 全 部 数据 中 ， 有 90% 是 过 去 
两 年 内 产生 的 。 到 2020 年 ， 全 世界 所 产生 的 数据 规模 将 达到 今天 的 44 

倍 。 经 过 10 年 的 发 展 ， 新 的 数据 标准 、 规 则 更 加 成 熟 ， 无 线 通信 新 技术 
在 企业 生产 、 市 场 流 通 与 大 众 消费 领域 日 益 扩 大 。 在 云 计算 普 及 化 及 信 
奶 环 境 更 加 完善 的 前 提 下 ， 越 来 越 多 的 企业 、 社 区 和 家 许 使 用 更 高 级 别 
的 数据 标准 ， 各 种 层次 和 各 种 功能 的 数据 中 心 如 雨 后 春 务 般 应 运 而 生 ， 

数字 城市 、 智 能 网 络 和 数据 系统 不 断 涌现 。 


大 数据 时 代 与 小 数据 时 代 的 对 比 见 表 1-1。 与 小 数据 时 代 的 数据 观 
重视 数据 的 因果 关系 有 所 不 同 ， 在 大 数据 时 代 ， 数 据 处 理 变 得 简单 快 
捷 。 利 用 所 有 的 数据 ， 而 不 再 仅仅 依靠 一 小 部 分 ， 并 且 人 允许 所 有 数据 不 
精确 性 的 存在 , “不 再 询 求 数据 的 因 采 关系 ， 而 去 关注 数据 的 相关 天 
系 ， 不 需要 知道 为 什么 ， 只 需要 知道 是 什么 "="。“ 思 维 的 转变 颠 履 了 人 


类 二 百年 的 思维 习惯 ,全 新 挑战 了 人 类 的 认 知 和 与 世界 交流 的 方式 。 它 
们 是 相互 联系 和 相互 作用 的 。”" 志 
表 1-1 大 数据 时 代 与 小 数据 时 代 的 对 比 


小 数据 时 代 大 数据 时 代 


数据 量 数据 量 小 , 以 MB@、GB 、TB | 数据 量 大 ， 以 PB 、EB 、ZB 为 存储 
| 为 存储 单位 单位 


数据 库 ”| 结构 化 数据 库存 储 数据 结构 化 及 非 结构 化 数据 库存 储 数据 
存储 设备 | 数据 存储 设备 价格 高 品 数据 存储 设备 价格 相对 低廉 


数据 来 源 | 数据 来 源 简单 数据 来 源 繁多 复杂 


产生 速度 | 数据 产生 、 变 化 速度 入 数据 产生 、 变 化 速度 快 


数据 结构 ”| 数据 结构 简单 数据 结构 多 样 


@@1MB=210B。 


全 部 数据 取代 随机 样本 。 在 信息 处 理 能 力 差 的 时 代 ， 随 机 样本 让 大 
量 数据 的 分 析 成 为 可 能 ， 但 当 完 整 的 数码 歌曲 被 截取 成 多 个 采样 的 文件 
时 ， 很 多 信息 也 会 随 之 丢失 。 因 此 ， 只 有 拥有 全 部 的 数据 或 几乎 全 部 的 
数据 ， 人 们 才能 进行 新 的 分 机 ， 才 能 正确 地 考察 细节 ， 才 能 用 大 数据 在 
任何 细微 的 层面 论证 新 的 假设 。 铭 恩 们 格 曾 说 :“ 在 菏 些 特定 的 状态 
下 ， 我 们 还 是 可 以 使 用 样本 分 析 法 ， 但 它 已 经 不 是 分 析 数 据 的 主要 方 
式 。 在 未 来 ， 我 们 会 完全 抛弃 不 再 使 用 。” 三 统计 抽样 方法 适用 于 技术 
受 限 的 时 期 ， 是 为 解决 一 些 特 定 问 题 而 存在 的 。 如 今 ， 技 术 环 境 己 大 大 
改善 ， 在 大 数据 时 代 进 行 抽样 分 析 就 好 比 在 汽车 时 代 骑 马 一 样 。 


混杂 性 取代 精确 性 。 在 小 数据 时 代 ， 为 了 保证 质量 ， 人 们 往往 把 减 
少 错误 作为 最 基本 、 最 重要 的 要 求 。 那 是 因为 收集 的 信息 是 有 限 的 ， 细 
微 的 错误 会 因数 据 量 小 而 被 放大 ， 甚 至 会 影 啊 整 个 结果 的 准确 性 。 在 当 
今 的 信息 时 代 ， 我 们 已 经 从 依赖 清晰 、 准 确 的 领域 脱身 ， 能 够 容忍 模糊 
和 不 确定 性 的 出 现 。 只 要 一 个 事物 有 一 个 更 完整 的 概念 ， 我 们 就 能 接受 
模糊 和 不 确定 性 。 好 比 印 象 派 的 画 风 ， 近 看 画 中 每 一 笔 都 感觉 很 乱 ， 但 
后 退 一 步 就 能 用 现 这 幅 作 品 的 伟大 ， 因 为 整 幅 男 的 整体 思路 在 后 退 一 步 
的 时 候 就 能 显现 出 来 。 也 就 是 次 ， 当 视野 局 限 在 可 以 分 析 的 数据 和 能 够 
确定 的 数据 上 时 ， 我 们 对 世界 的 整体 理解 可 能 会 发 生 错误 和 偏差 ， 不 但 
会 丧失 尽力 收集 数据 的 动力 ， 而 且 会 失去 从 不 同 角 度 观 察 事物 的 权 
利 。“ 大 数据 要 求 我 们 必须 能 够 接受 混乱 和 不 确定 性 。 一 旦 我 们 承认 其 
至 拥护 这 个 事实 的 话 ， 离 真相 束 义 近 了 一 步 。” 


相关 关系 取代 因果 关系 。 在 小 数据 时 代 ， 因 为 数据 很 少 且 收 集 数 据 
费时 费力 ， 所 以 相关 关系 的 应 用 也 很 少 。 但 在 大 数据 背景 下 ， 我 们 能 够 
更 便捷 、 更 容易 和 更 清楚 地 分 析 事 物 ， 能 够 量化 两 个 数据 之 间 的 数理 关 
系 ， 因 此 可 以 更 好 地 运用 数据 的 相关 关系 。 比 如 谷歌 预测 的 流感 趋势 是 
通过 人 们 在 谷歌 搜索 的 流感 词 条 确定 的 ， 搜 索 多 的 特定 地 区 被 认为 有 更 


多 的 人 患 了 流感 。 相 反 ， 个 人 鞋 码 与 闵 福 指数 根本 扯 不 上 任何 关 

系 。“ 在 大 数据 时 代 ， 我 们 只 需要 知道 ‘是 什么 "， 不 需要 知道 ‘为 什么 ”。 

不 必 寻 求 现 象 背后 的 原因 。” 三 这 个 时 代 要 释放 出 的 巨大 价值 是 通 往 未 
来 的 必然 改变 ， 使 我 们 选择 大 数据 的 理念 和 方法 不 再 是 一 种 权衡 。 大 数 
据 的 趋势 融 是 越 来 越 多 的 事物 都 以 数据 的 形式 存在 。 


综合 各 方 对 大 数据 时 代 的 分 析 ， 我 们 认为 大 数据 时 代 具 有 以 下 5 个 
典型 特征 。 第 一 个 特征 是 数据 量 大 。 大 数据 的 起 始 计量 单位 至 少 是 
PB、EB 或 者 ZB。 第 二 个 特征 是 数据 类 型 多 样 化 。 大 数据 时 代 的 数据 类 
型 和 表现 形式 多 样 ， 包 括 调查 数据 、 网 络 日 志 、 音 频 、 视 频 、 图 片 和 地 
理 位 置信 息 等 ， 数 据 与 数据 之 间 的 联系 锌 数据 的 多 样 性 冲淡 ， 多 种 类 型 
的 数据 对 数据 的 处 理 能 力 提 出 了 更 高 的 要 求 。 第 三 个 特征 是 数据 价值 冤 
度 相 对 较 低 。 随 着 物 联 网 的 广泛 应 用 ， 信 息 感知 无 处 不 在 ， 信 息 海量 ， 
但 价值 密度 较 低 。 如 何 通过 强大 的 机 器 算法 更 迅速 地 完成 数据 的 价 
值 “ 提 纯 "， 是 大 数据 时 代 吸 竺 解决 的 难题 。 第 四 个 特征 是 处 理 速 度 快 。 
在 数据 收集 速度 加 快 的 同时 ， 数 据 寿 命 明 显 缩短 ， 对 数据 挖掘 的 时 效 性 
要 求 日 益 提 高 。 这 是 大 数据 区 分 于 传统 数据 挖掘 最 显 普 的 特征 。 第 五 个 
特征 是 关键 数据 仍 是 稀缺 < 资源 ”。 由 于 网 络 、 视 频 、 扫 描 等 数据 采集 工 
具 不 断 丰 富 ， 应 用 范围 日 将 扩 大， 流量 数据 十 分 庞大 ， 并 且 占 据 了 大 量 
的 人 力 、 物 力 和 财力 。 数 据 量 的 增加 ， 并 没有 满足 人 们 对 于 数据 质量 的 
要 求 ， 对 研究 有 用 的 关键 数据 依然 稀缺 。 


(三 ) 超 数据 时 代 


5G、 物 联网 、 人 工 智能 、 云 计算 等 技术 的 快速 友 展 ， 以 及 视频 监 
控 、 智 能 终 痢 、 应 用 商店 的 快速 普及 ， 光 学 观测 、 光 学 监控 、 健 康 医 
护 、 传 感 器 和 数据 服务 公司 及 供应 链 系统 等 都 产生 了 海量 、 复 杂 、 多 元 
的 数据 ， 对 这 些 数据 更 恰当 的 描述 应 该 是 “无 限 ?的 数据 ， 数 据 都 是 源源 


不 断 生成 的 ， 我 们 将 这 种 数据 称 为 “ 超 数 据 *。 超 数据 是 大 数据 发 展 的 后 
半 场 ， 是 大 数据 时 代 全 面 采 集 、 存 储 、 积 累 的 必然 结果 。 随 着 时 间 的 推 
移 ， 超 数据 的 数据 体 量 还 在 不 断 膨 胀 ， 不 论 人 类 是 否 愿 意 ， 痢 将 迈 入 超 
数据 时 代 。 


“各 种 经 济 时 代 的 区 别 ， 不 在 于 生产 什么 ， 而 在 于 怎样 生产 ， 用 什 
么 天 动 资料 生产 。 苑 动 资 料 不 仅 是 人 类 区 动力 发 展 的 训 量 器 ， 而 且 是 区 
动 借以 进行 的 社会 关系 的 指示 器 。” 三 马克 思 按 照 劳动 资料 或 劳动 工具 
的 标准 ， 把 人 类 社会 友 展 阶段 分 别称 为 石器 时 代 、 青 铜 时 代 、 铁 器 时 
代 、 大 机 器 时 代 。 马 殉 思 没有 看 到 信息 时 代 的 到 来 ， 但 当 信 息 技 术 成 为 
非常 重要 的 生产 资料 或 者 生产 工具 的 时 候 ， 我 们 还 是 依据 马克 思 的 理 
论 ， 称 这 个 时 代为 信息 时 代 。 如 今 超 数据 出 现 ， 作 为 新 的 生产 资料 ， 不 
断 体 现 出 其 在 生产 活动 中 的 巨大 作用 ， 我 们 自然 而 然 地 应 该 去 思考 超 数 
据 时 代 的 到 来 。“ 从 事物 的 本 性 可 以 得 出 ， 人 的 郁 动能 力 的 发 展 特 别 表 
现在 劳动 资料 或 者 说 生产 工具 的 发 展 上 。” 忆 工具 是 生产 力 及 展 水 平 的 
重要 标准 ， 而 生产 力 发 展 水 平 所 决定 的 生产 关系 则 是 一 个 时 代 的 本 质 特 
征 。 超 数据 是 作为 一 种 新 的 生产 资料 出 现 的 ， 对 生产 为 的 发 展 有 者 直接 
的 推动 作用 ， 这 也 是 超 数 据 时 代 会 被 称 为 一 个 时 代 的 原因 。 超 数据 时 
代 ， 人 们 的 思维 方式 也 发 生 了 巨大 的 变革 ， 总 体 呈 现 预 测 性 趋势 、 模 糊 
性 趋势 和 复杂 性 趋势 。 


预测 性 趋势 : 用 数据 看 未 来 。 超 数据 时 代 带 给 我 们 巨 量 的 数据 和 先 
进 的 数据 分 析 技 术 ， 以 及 二 者 的 结合 带 来 的 我 们 最 为 关心 的 一 项 能 
一 一 预测 。 大 量 的 传 感 莫 将 我 们 映 边 的 一 切 物 体 纳入 物 联网 ， 使 一 切 事 
物 的 动态 、 变 化 都 变 成 大 量 的 数据 流 不 断 进 入 负 贡 监控 的 计算 机 。 基 于 
云 计算 技术 的 强大 数据 分 析 能 力 则 将 对 这 些 数据 进行 分 析 处 理 ， 得 出 的 
结果 有 助 于 人 类 把 握 事物 现时 的 情况 ， 同 时 预测 其 下 一 步 的 友 展 。 超 数 
扼 不 但 可 以 预测 事物 的 发 展 状况 ， 而 且 可 以 预测 人 类 行为 。 艾 伯 特 - 拉 
斯 洛 : 巴 拉 巴 西 教授 在 《爆发 》 一 书 中 表示 ， 人 类 行为 的 93% 是 可 以 预测 
的 。 三 超 数 据 时 代 的 数据 监测 可 以 将 人 们 的 行为 转化 为 数据 ， 然 后 通过 


人 类 行为 预测 模型 对 其 进行 处 理 ， 束 可 以 对 人 们 的 行为 进行 预测 。 但 是 
预测 并 非 预 言 ， 超 数据 能 做 到 的 是 对 短期 内 影响 因素 较 少 的 事物 的 发 展 
进行 预测 ， 这 种 预测 有 者 极 大 的 限制 ， 并 非 采 想 中 的 无 所 不 能 、 无 所 不 
知 。 尺 管 如 此 ， 超 数据 的 预测 能 力 还 是 为 人 们 看 加 未 来 开 了 一 司 窗 。 在 
超 数据 的 帮助 下 ， 人 们 不 再 是 摸 着 石头 过 河 ， 而 是 可 以 站 得 高 一 些 ， 稍 
稍 看 清 前 方 的 路 了 。 这 种 转变 对 人 类 来 说 是 非常 重要 且 意 义 重 大 的 。 人 
们 对 于 未 来 不 再 是 入 得 无 措 、 一 无 所 知 的 ， 而 是 可 以 通过 超 数 据 的 能 
对 未 来 进行 推测， 这 是 人 类 思维 方式 变革 的 一 个 大 方 同 。 


模糊 性 趋势 : 用 概率 来 表达 。 当 “精确 ”不 能 解决 全 部 问题 时 ， 我 们 
号 需要 换 一 个 角度 ， 考 虑 试 试 “模糊 ”这 条 道路 行 不 行 得 通 。1965 年 美国 
数学 家 扎 德 发 表 了 论文 《模糊 集合 》， 一 门 叫 作 模 糊 数学 的 学 科 诞生 ， 
同 经 典 数 学 不 同 ， 它 是 研究 模糊 现象 的 一 门 数学 。 经 典 数 学 以 精确 为 
准 ， 面 对 许多 不 能 精确 定义 的 事物 ， 经 典 数 学 很 难 对 其 进行 研究 ， 这 就 
众生 了 模糊 数学 。 模 糊 数 学 的 产生 说 明 世 界 上 的 许多 事物 是 不 能 用 精确 
来 解决 的 ， 过 去 科技 不 有 发达， 认为 是 不 够 精确 ， 现 在 发 现 事物 本 身 就 存 
在 模糊 性 ， 用 精确 的 手段 自然 不 能 对 其 进行 解释 和 处 理 。 在 超 数据 时 
代 ， 我 们 发 现 了 更 多 的 模糊 性 事物 ， 我 们 的 思维 方式 也 必须 从 过 去 的 精 
确 性 思维 方式 同 模 糊 性 思维 方式 转变 ， 学 会 用 概率 和 数据 说 话 ， 这 样 我 
们 才能 更 好 地 适应 和 推动 科技 的 进步 与 社会 的 发 展 。 男 外 ， 数 据 的 模糊 
性 还 来 日 数据 的 生长 性 ， 超 数据 时 代 大 多 数 的 数据 不 是 静态 的 ， 而 是 不 
断 生 成 、 不 断 变 化 的 动态 数据 ， 对 于 这 种 具备 生长 性 的 数据 ， 很 难 做 到 
精确 地 、 简 单 地 定性 ， 所 以 需要 我 们 用 模糊 的 和 概率 的 数据 来 表达 。 因 
此 ， 超 数据 时 代 ， 接 受 了 错误 和 混杂 ， 认 识 到 数据 的 动态 变化 ， 我 们 的 
思维 方式 必 将 展现 出 一 种 模糊 性 的 变化 趋势 。 


杂 性 趋势 : 用 数据 来 跨 界 。 超 数据 时 代 的 研究 范式 打破 了 传统 的 
机 械 思 维和 还 原 方法 论 的 统治 ， 同 复杂 性 科学 研究 方法 类 似 ， 可 以 说 超 
数据 时 代 的 研究 方法 本 喘 就 是 一 种 复 森 性 科学 ， 而 这 种 复 森 性 科学 也 代 
表 了 超 数 据 时 代 人 类 思维 方式 回复 条 性 太 展 的 趋势 。 复 杂 性 科学 将 一 切 


对 象 都 看 作 有 生命 、 会 演化 的 系统 ， 几 个 最 简单 的 要 去 通 过 非 线 性 的 相 
互 作用 ， 也 有 可 能 涌现 出 复杂 的 行为 ， 我 们 不 能 根据 简单 的 因果 关系 推 
叶 系 统 的 行为 。 超 数据 时 代 的 研究 范式 恰恰 就 是 通过 数据 之 间 的 关系 研 
完事 物 之 间 非 线性 的 相互 作用 。 超 数据 时 代 对 复杂 性 科学 将 起 到 巨大 的 
推进 作用 ， 也 会 形成 人 类 思维 方式 的 复杂 性 变化 趋势 ， 人 们 眼中 的 世界 
将 不 再 是 简单 的 、 可 以 被 分 割 的 一 个 个 独立 的 个 体 ， 而 是 互相 有 联系 的 
复杂 的 系统 ， 而 且 这 个 复杂 的 系统 是 动态 的 ， 时 刻 都 在 变化 。 过 去 的 数 
据 是 茶 个 时 间 采 集 到 的 静态 数据 ， 这 种 数据 是 静态 的 、 有 时 渍 性 的 ， 超 
数据 时 代 的 数据 都 是 不 断 变 化 的 、 随 时 随地 都 可 以 采集 到 的 动态 数据 ， 
可 以 直接 反映 当前 的 动态 和 行为 。 超 数据 时 代 的 数据 在 采集 、 存 储 、 传 
输 、 处 理 和 使 用 中 不 断 产 生 和 获得 最 新 数据 ， 这 种 动态 的 技术 手段 对 人 
们 的 思维 方式 也 将 产生 巨大 的 影响 。 在 人 们 的 思维 领域 , “现在 ”的 概念 
将 被 放大 ,“ 现 在 ”就 将 是 现在 ， 不 是 一 天 前 ， 不 是 一 小 时 前 ， 甚 至 不 是 
一 分 钟 前 ， 而 是 说 话 的 此 时 此 刻 。 


超 数据 时 代 还 会 将 事物 的 变化 放大 ， 使 人 们 认识 到 世界 上 没有 什么 
古 一 成 不 变 的 ， 要 用 动态 的 眼光 看 竺 世界。 恩格斯 指出 :“ 当 我 们 深思 
熟 夸 地 考 罕 自然界 或 人 类 历史 或 我 们 目 己 的 精神 活动 的 时 候 ， 首 先 呈 现 
在 我 们 眼前 的 ， 是 一 幅 由 种 种 联系 和 相互 作用 无 穷 无 尽 地 交织 起 来 的 画 
面 。” 三 马 死 思 和 恩格斯 认为 这 个 世界 的 一 切 都 是 联系 和 发 展 的 ， 而 事 
物 之 间 的 联系 则 是 通过 “中 介 ? 进 行 的， 那么 在 超 数据 时 代 ， 数 据 是 不 是 
世界 联系 的 重要 “中 介 ? 之 一 ， 一 个 容易 被 发 现 、 容 易 航 捕捉 的 “中 介 ”， 
我 们 通过 这 个 “中 介 ” 可 以 研究 许多 之 前 研究 不 了 的 事物 间 的 关系 ? 男 
外 ， 数 据 的 动态 变化 监测 能 力 能 够 降低 我 们 研究 世界 的 发 展 变 化 的 难 
度 。 从 马克 思 的 理论 我 们 可 以 看 出 ， 超 数据 时 代 的 研究 正在 朝 着 正确 的 
方向 进发 ， 不 断 将 这 个 世界 清晰 地 还 原 到 人 脑 之 中 。 在 超 数据 时 代 ， 复 
杂 性 的 、 动 态 的 思维 方式 将 被 树立 ， 人 们 的 思维 方式 也 将 呈现 复杂 性 的 
变化 趋势 。 
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第 二 市 
奇 点 来 临 : 数据 大 爆炸 


(一 ) 数据 连接 型 社会 : 数据 量化 世界 


超 数 据 时 代 ，5G、 物 联网 、 人 工 智 能 等 新 技术 、 新 工具 和 新 应 用 
的 不 断 发 展 与 应 用 ， 知 识 和 信息 的 制造 、 组 织 、 发 布 与 交流 形式 似乎 每 
过 一 段 时 间 束 会 被 改写 ， 私 人 生活 和 公共 生活 正在 被 重 塑 ， 一切 名 可 量 
化 ， 万 物 皆 为 数据 。 数 据 驱 动 痢 人 们 的 日 常生 活 ， 改 变 着 政治 决策 、 公 
共 与 论 、 政 府 监 管 和 社会 治理 方式 ， 数 据 连接 型 社会 孕育 而 生 。 


普 惠 泛 在 的 信息 网 络 体系 二 是 构建 数据 连接 型 社会 的 基础 。 继 美国 
的 “智慧 地 球 ” 日 本 的 “U-Japan” 三 、 呈 国 的 *U-Korea” 二 、 欧 盟 的 “ 物 
联网 行动 计划 ”后 ， 中 国 提出 “感知 中 国 ” 的 信息 技术 发 展 战 略 。 三 “感知 
中 国 ” 战 略 的 核心 是 抓 住 信息 拉 术 跃 变 的 机 过 ， 提 升 自 主创 新 和 可 持续 
发 展 能 力 ， 使 我 国 全 面 进入 信息 社会 。 信 息 成 为 中 国 经 济 和 社会 发 展 最 
重要 的 资源 ， 中 国 社会 信息 化 总 体 上 接近 发 达 国 家 。 信 息 社 会 的 发 展 可 
粗略 地 分 为 e 社 会 和 u 社 会 ，e 社 会 是 信息 社会 的 初级 阶段 ，u 社 会 是 信息 
社会 的 高 级 阶段 〈 见 表 1-2) 。2020 年 以 前 我 国 要 为 迈 向 信息 社会 商定 
坚实 的 基础 ， 称 为 e 社 会 ，2020 年 以 后 的 目标 是 同 u 社 会 过 渡 。u 社 会 也 
束 是 我 们 押 畅 想 的 数据 连接 型 社会 ， 其 构建 关键 在 于 普 惠 泛 在 的 信息 网 
络 体系 的 建设 。 普 囊 泛 在 的 信息 网 络 体系 包含 6 个 方面 的 内 容 : 一 古文 
撑 网 络 、 具 有 变革 性 的 器 件 与 系统 ， 二 是 面向 大 众 、 普 及 全 民 的 网 络 系 
统 ， 三 是 安全 可 人 和信、 个 性 化 的 网 络 服务 技术 ， 四 是 支持 产业 升级 和 发 展 
的 数据 知识 产业 ， 五 是 网 络 科 学 与 新 的 信息 科学 ， 六 是 国家 与 社会 信息 


网 络 安全 体系 。 普 惠 泛 在 的 信息 网 络 体系 实现 了 与 空间 、 地 面 、 接 入 等 
网 络 的 全 面 融合 ， 实 现 了 人 与 人 、 机 器 与 机 器 、 人 与 机 器 之 间 任 何 时 
间 、 任 何 地 点 的 通信 联络 ， 网 络 通信 无 所 不 在 且 有 可 人 靠 的 服务 保证 ， 通 
信 成 本 极 低 ， 为 构建 数据 连接 型 社会 艳 定 了 展 好 的 网 络 基础 ( 见 表 1- 
Ch 


表 1-2 信息 社会 的 初级 阶段 (e 社 会 ) 和 高 级 阶段 (u 社 会 ) 


ME 


电脑 拥有 量 超 过 4 亿 人 台 5 电脑 拥有 量 超 过 8 亿 人 台 ， 
电脑 普及 率 达 到 28% 电脑 普及 率 超过 50% 


网 络 普及 网 民 数 超过 5 亿 ( 含 手 机 | 网 民 数 超过 12 亿 ( 含 手 
上 网 )， 网 络 普及 率 超 过 | 机 上 网 )， 网 络 普及 率 超 
35% 过 80% 


简便 易 用 很 多 人 会 用 电脑 绝 大 多 数 人 会 用 电脑 


| | 2020 年 (e 社 会 ) | 2050 年 (u 社 会 ) 


Wi 
i 


人 人 、 人 机 、 
机 机 通信 


高 效 可 信 


选择 空间 较 大 ， 可 以 切换 
供应 商 


遵循 简单 易 用 的 标准 ， 较 
少 需要 许可 


无 线 通信 技术 迅速 发 展 ， 
通信 地 点 基本 不 受 限制 ， 
传 感 需 网 络 开始 出 现 


可 信和 度 高 ， 信 息 孤 岛 少 ， 
用 户 可 见效 率 高 


易 用 的 功用 服务 资源 较 丰 
富 ， 互 联网 成 为 主要 信息 
来 源 


全 民 参 与 ， 电 脑 走 下 高 科 
技 神 坛 ， 开放 标准 开始 
流行 


电脑 网 受到 政府 监管 ,个 
人 隐私 开始 受到 重视 


资料 来 源 : 中 国 科 学 院 计算 技术 研究 所 


选择 空间 较 大 ， 可 随意 
切换 供应 商 


言 息 消费 者 与 生产 者 融 
合 ， 可 自由 创造 


三 个 世界 实现 无 经 、 双 
向 连接 ， 物 物 通信 量 远 
远 超过 人 人 通信 和 量 


信息 处 理 能 力 几乎 不 受 
限制 ， 量 子 密码 使 信息 
系统 可 信 


机 天 理解 语义 ， 按 语义 
搜索 和 机 融 翻 译 等 智能 
技术 流行 ， 数 据 智能 化 
成 为 巨大 产业 


开放 标准 占 主 导 地 位 ， 
知识 产权 和 专利 保护 不 
再 是 创新 的 障碍 


政府 的 监管 和 个 人 目 由 
和 谐 平 和 ,个 人 隐私 受 
到 高 度 保护 


表 1-3 普 惠 泛 在 的 信息 网 络 体系 的 建设 特征 与 目标 


有 线 网 


传 感 网 


信息 产 
业 规 模 
和 质量 


电脑 拥有 量 超 过 
4 亿 台 ， 新 型 终端 
普及 率 超 过 50% 


网 民 数 超过 6 亿 ， 
农村 网 民 数 达 3 亿 


局 域 网 带宽 将 超 
过 100Gbps"”， 用 
户 接 入 速率 可 达 
1Gbps 


用 户 传输 带宽 可 达 
100Mbps”， 


移 动 
互联 网 鞍 勃 发 展 


在 物流 、 医 疗 监 
护 、 环 保 、 防 灾 等 
领域 普及 传 感 网 络 


域名 达 8 500 万 个 ， 
网 站 超过 1 400 万 
个 ， 服 务 器 超过 
6 000 万 台 


中 国 网 页 
过 3 300 亿 


总 数 超 


言 息 产 业 年 收入 
超过 15 万 亿 元 ， 
自主 创新 能 力 明 
显 增强 


泛 在 信息 终端 普及 率 
超过 80% 


网 民 数 超过 10 亿 ， 
传 感 网 在 城乡 普及 


建成 超越 TCP/P ( 传 
输 控 制 协议 /互联 协 
议 ) 的 未 来 网 络 、 城 
域 量子 保密 通信 系统 


实现 空 、 天 、 地 、 水 
一 体 化 通信 融合 


传 感 带 终端 达到 数 
秆 他 兴 


泛 在 的 网 络 专业 服 
务 ， 信 息 服务 资源 极 
为 丰富 


网 上 中 文 信息 内 容 占 
全 世界 网 上 信息 总 量 
的 10% 


建立 自主 可 控 的 信息 
技术 平台 ， 信 息 产 
业 实现 能 耗 和 排放 
零增长 


几乎 人 人 都 有 信 
息 终 端 ， 几 乎 所 
有 需要 联网 的 设 
备 都 是 信息 终端 


信息 网 络 像 电力 
一 样 普及 ， 数 字 
鸿沟 几乎 消除 


带宽 各 取 所 需 ， 
实现 基于 量子 密 
码 的 全 球 实用 安 
全 通信 网 络 


建成 智能 无 线 通 
信 系 统 


传 感 “ 人 尘埃” 无 
处 不 在 


个 性 化 、 智 能 化 信 
息 服 务 成 为 主流 


人 均 1TB 的 个 性 
化 网 上 信息 


数据 和 知识 产业 
成 为 支柱 产业 
之 一 


G@ Gbps 是 带宽 单位 ，1Gbps 即 每 秒 16B。 一 -一 编者 注 
Mbps 是 带宽 单位 ，1Mbps 即 每 秒 1MB。 一 一 编者 注 
资料 来 源 : 中 国 科 学 院 计 算 技 术 研 究 所 

数据 连接 型 社会 是 人 机 物 三 元 世界 高 度 互联 与 深度 融合 的 社会 。 目 
前 使 用 的 信息 系统 在 很 大 程度 上 仍然 根植 于 人 机 共生 的 思想 ， 即 人 做 直 
觉 的 、 有 意识 的 工作 ， 计 算 机 做 确定 的 、 机 械 的 操作 。 人 确定 目标 和 动 
机 ; 计算 机 处 理 琐碎 的 细节 ， 执 行 预 定 流程 。 然 而 ， 今 天 的 数字 世界 已 
经 与 一 人 一 机 组 成 的 分 工 明 确 的 人 机 共生 系统 不 同 ， 它 是 一 个 多 人 、 多 
机 、 多 物 组 成 的 动态 开放 、 虚 实 结合 的 数据 连接 型 社会 ， 即 由 人 类 社 
会 、 信 息 空 间 、 物 理 世 界 组 成 的 三 元 世界 。 这 是 一 种 新 的 数字 世界 观 ， 
也 是 超 数据 时 代 的 范式 变革 。 在 面 问 三 元 世界 的 计算 中 ， 计 算 过 程 不 再 
局 限于 使 用 计算 机 和 网 络 的 人 硬件、 软件 和 服务 ， 而 是 综合 利用 物理 世 
界 、 赛 博 空间 .三 、 人 类 社会 的 资源 ， 通 过 人 机 物 融 合 协作 完成 任务 。 人 
机 物 的 融合 已 经 出 现 一 些 和 科研、 技术 和 应 用 实例 。 个 人 作坊 利用 信息 系 
统 和 三 维 打印 技术 设计 制造 物理 产品 ， 欧 盟 * 未 来 信息 通信 技术 知识 加 
速 器 ?项 目 研 究 人 类 地 球 模 拟 器 ， 都 是 典型 的 人 机 物 融 合计 算 的 实 
例 .“ 智 莫 城 市 ”数字 小 镇 ?等 建设 也 体现 了 人 机 物 三 元 融合 的 趋势 。 超 
数据 时 代 ， 人 机 物 三 元 融合 将 使 得 数字 科技 沉浸 式 地 渗透 到 实体 经 济 和 
社会 服务 活动 中 ， 通 过 人 机 物 闭环 协作 交互 过 程 提升 生产 生活 的 智能 化 
水 本 


数据 连接 型 社会 一 切 都 可 被 数据 化 ， 数 据 规模 呈 指 数 级 上 升 ，“ 地 
球 村 ” 步 入 超 数据 时 代 。 人 类 的 感知 是 通过 眼睛 、 耳 汞 和 皮肤 等 感觉 需 
官 受 到 刺激 ， 以 神经 冲动 的 方式 传导 至 大 脑 ， 通 过 大 脑 的 反应 进行 认识 
活动 的 。 在 数据 连接 型 社会 ， 人 机 物 高 度 互 联 ， 摄 像 头 成 了 观 峙 世界 的 
眼睛 ， 话 简 成 了 倾听 世界 的 耳 东 ， 各 种 各 样 的 传感器 则 成 了 感知 世界 的 
皮肤 ， 通 过 传感器 检 训 到 的 电信 号 ， 进 入 电脑 成 为 我 们 所 需要 的 数据 
流 。 因 此 ， 对 于 之 前 许多 人 类 不 能 或 不 方便 感知 、 测 量 的 事物 ， 现 在 可 
以 通过 传感器 技术 将 其 准确 地 数据 化 。 随 着 传感器 技术 的 发 展 ， 几 乎 没 
有 什么 不 能 被 其 捕捉 ， 大 至 气候 的 变化 、 海 洋 的 气温 和 走 同 、 室 外 空气 


质量 等 自然 界 悄 无 声息 的 变化 ， 小 至 细胞 、 细 菌 和 病毒 的 变化 。 生 物 传 
感 左 可 以 通过 具有 分 子 识 别 能 力 的 生物 活性 物质 感受 目标 的 变化 ， 再 经 
由 信号 转换 器 转化 为 电信 号 ， 就 可 以 将 微观 领域 的 细胞 、 细 郴 等 的 变化 
量化 为 数据 进行 分 析 研 究 。 通 过 这 种 方法 ， 可 以 检测 人 体 的 细微 变化 ， 
不 仅 可 以 检测 健康 方面 的 变化 ， 而 且 可 以 检测 人 的 情绪 变化 ， 形 成 心情 
指数 。 在 先进 的 传感器 技术 下 ， 超 数据 时 代 的 一 切 问题 几乎 都 可 以 通过 
技术 手段 量化 为 数据 ， 如 图 1-1 所 示 。 


~ 
传 感 网 络 CPS~~ 


而 络 互联 的 服务 . 信息 物理 系统 ) 
器 和 其 他 资源 


下 
> 训 hl 


物理 世界 


、 人 机 界面 (终端 设备 ) A 
~、 脑 机 界面 一 


图 1-1 人 类 社会 、 信 息 空间 、 物 理 世 界 组 成 的 三 元 世界 


(二 ) 数据 大 爆炸 : 海量 、 复 杂 与 失控 


在 万 物 互 联 的 情境 中 ， 数 据 不 再 仅仅 是 人 类 思 维 独 有 的 实体 产物 。 


超 数据 时 代 ， 人 机 物 三 元 世界 融合 的 背后 ， 无 时 无 刻 不 在 制造 海量 的 超 
数据 ， 数 据 成 为 客观 世界 的 映射 。 数 据 连 接 型 社会 “量化 一 切 ”的 特性 引 
发 数据 量 的 急剧 膨胀 ， 进 而 引发 数据 大 爆炸 ， 也 使 人 类 社会 陷入 被 垃圾 
数据 层 层 包 右 的 超载 时 代 。 


超 数据 时 代 ， 人 类 将 面临 难以 计量 的 海量 数据 ， 而 它们 主要 来 自 
人 、 机 、 物 。 国 际 数据 公司 预测 ， 未 来 全 球 数 据 总 量 增长 率 将 维持 在 
50% 左 右 ， 到 2020 年 全 球 数据 总 量 将 达到 40ZB。 其 中 一 部 分 来 自 “ 人 >”， 
即 我 们 人 类 自身 。 据 中 国 互 联网 络 信 息 中 心 等 机 构 的 统计 报告 ， 我 国手 
机 用 户 数 和 网 民 数 都 居 世 界 之 首 。 手 机 已 不 仅仅 是 一 个 简单 的 通话 工 
具 ， 加 速度 传感器 、 陀 螺 仪 传感器 、 温 度 传 感 器 、 地 磁 传 感 器 、 方 向 传 
感 器 、 压 力 传感器 等 都 谍 入 了 手机 ， 由 此 产生 的 音频 、 视 频 、 照 片 、 地 
理 信 息 、 速 度 信息 等 每 时 每 刻 都 可 以 成 为 记录 的 依据 ， 随 时 可 以 发 送出 
来 与 别人 分 享 。 人 产生 的 超 数据 还 来 自 健康 管理 ， 便 携 化 的 生理 设备 随 
着 移动 互联 网 的 发 展 得 到 了 普及 ， 如 果 每 个 个 体 的 健康 信息 都 连 入 互联 
网 ， 那 么 数量 将 不 可 估量 ， 其 将 成 为 未 来 重要 的 超 数 据 来 源 。 超 数据 还 
有 一 部 分 来 自 “ 机 ”， 即 信息 系统 本 身 ， 如 数据 中 心 的 运行 日 志 、 网 络 传 
输 协 议 规定 的 各 种 非 有 效 载荷 部 分 、 机 器 之 间 的 内 容 拷贝 、 数 据 库 的 自 
动 备份 、 系 统 快照 、 虚 拟 机 的 镜像 文件 等 。 这 些 数据 客观 真实 地 记录 了 
系统 运行 的 历史 轨迹 ， 同 样 在 测试 调试 、 安 全 扫描 、 高 可 用 性 提升 、 计 
算 机 取证 等 领域 具有 重要 的 保存 价值 。 超 数据 的 更 大 一 部 分 来 自 “ 物 ”， 
即 广阔 的 物理 世界 。 超 数据 的 产生 基于 今天 无 处 不 在 的 传感器 和 微 处 理 
器 ， 以 视频 监控 为 例 ， 一 个 720P' 三 的 摄像 头 一 小 时 能 产生 3.6G 数 据 ， 
一 座 城市 若 安 装 几 十 万 个 交通 和 安防 摄像 头 ， 每 月 产生 的 数据 量 将 达 几 
十 PB。 


超 数 据 时 代数 据 极 具 复 杂 性 ， 包 括 数据 复杂 性 、 计 算 复杂 性 和 系统 
复杂 性 。 数 据 复杂 性 主要 表现 为 数据 类 型 和 模式 多 样 、 关 联 关 系 繁杂 、 
质量 民 劳 不 齐 。 其 中 ， 数 据 内 在 的 复 林 性 包括 复杂 的 类 型 、 复 杂 的 结构 
和 复杂 的 模式 ， 使 得 数据 的 感知 、 表 达 、 理 解 和 计算 等 多 个 环节 面临 前 


所 未 有 的 困难 与 挑战 ， 导 致 以 往 全 量 数 据 计 算 模 式 下 时 空 维 度 上 计算 复 
杂 度 的 激增 ， 以 往 的 数据 分 析 与 挖掘 任务 ， 例 如 检索 、 主 题 发现 、 语 义 
和 情感 分 析 等 也 变 得 异常 困难 。 计 算 复 杂 性 主要 表现 为 数据 检索 速度 

慢 、 任 务 周 期 长 、 分 析 能 力 弱 。 超 数据 时 代 ， 持 续 激 增 的 超 数 据 多 源 弄 
构 、 规 模 巨 大 、 快 速 多 变 等 特性 导致 以 往 的 机 器 学 习 、 数 据 检 索 、 数 据 
冬 据 等 计算 方法 不 能 有 效 文 持 超 数据 的 处 理 、 分 析 和 计算 。 特 别 是 超 数 
据 计 算 不 像 小 样本 数据 集 那样 依赖 对 全 局 数据 的 统计 分 析 和 和 迭代 计算 ， 
再 要 突破 传统 计算 对 数据 的 独立 同 分 布 和 采样 充分 性 的 假设 。 系 统 复杂 
性 主要 表现 为 数据 厨 吐 率 高 、 并 行 处 理 能 力 强 、 作 业 单 位 能 耗 低 。 对 于 
规模 巨大 、 结 构 复 杂 、 价 值 稀 芷 的 超 数据 ， 其 处 理 系统 亦 面临 计算 复杂 
度 遍 、 任 务 周 期 长 、 实 时 性 要 求 高 等 难题 。 超 数据 及 其 处 理 的 这 些 难点 
不 仅 对 超 数 据 处 理 系统 的 系统 架构 、 计 算 框架 、 处 理 方法 提出 了 新 的 挑 
战 ， 而 且 对 超 数据 处 理 系统 的 运行 效率 及 单位 能 耗 提 出 了 苛刻 的 要 求 ， 

要 求 超 数据 处 理 系 统 必 须 具 备 高 效能 。 


人 类 对 超 数据 的 控制 能 力 是 有 限 的 ， 超 数据 很 大 程度 上 对 人 类 来 说 
就 是 失控 的 。 超 数据 日 复 一 日 地 变 得 更 大 、 更 复杂 、 更 快 ， 要 把 所 有 数 
据 及 所 有 数据 的 所 有 方面 全 部 搞 清 楚 ， 芍 怕 非 常 困难， 很 可 能 已 经 是 人 
力 不 可 及 的 事情 。 很 直接 的 一 个 例子 就 是 “数据 调 ”， 显 然 “ 数 据 调 ”失去 
了 传统 数据 库 和 数据 仓库 那 种 井井有条 的 规范 美 。 “数据 湖 ? 基 本 上 束 是 
把 所 有 可 以 收集 到 的 数据 堆放 在 一 起 ， 并 没有 进行 规范 的 管理 。 并 不 是 
人 们 不 想 管 理 ， 而 是 在 事实 上 做 不 到 ， 只 能 癌 现 实习 协 。 当 然 ， 这 种 妥 
协 很 大 程度 上 可 能 是 目 发 的 而 不 是 目 觉 的 。 可 能 很 多 人 也 认为 “数据 
调 ” 只 是 一 种 过 渡 ， 我 们 还 在 等 竺 更 强大 的 数据 管理 和 数据 治理 的 技 
术 、 工 具 、 平 台 与 方法 论 出 现 。 但 是 ， 人 的 智力 和 精力 终归 是 有 限 的 ， 
如 果 我 们 期 望 能 为 所 有 数据 部 建立 非常 恨 好 的 文档 和 谱系 来 进行 管理 ， 
并 且 能 够 及 时 维护 更 新 文档 和 谱系 ， 那 么 需要 投入 的 人 力 可 能 是 无 法 承 
受 的 。 还 有 一 个 问题 是 ， 如 何 保证 这 些 管 理 的 质量 ? 只 做 形式 审查 比较 
容易 ， 但 是 无 法 真正 保证 管理 文档 的 内 容 质 量 ， 而 实质 审查 实际 上 又 是 
不 可 能 做 到 的 。 因 此 ， 很 可 能 我 们 根本 无 法 对 超 数 据 建 立 起 传统 意义 上 


的 管理 体系 。 


(三 ) 数据 失真 、 数 据 依赖 与 数据 安全 


数据 大 爆炸 导致 数据 过 剩 ， 数 据 量 大 大 超出 了 人 们 的 实际 需求 和 计 
算 处 理 能 力 ， 同 时 也 面临 种 种 数据 风险 。 数 据 大 焊 炸 产生 于 数据 的 收 
集 、 存 储 、 分 析 和 使 用 的 全 过 程 ， 形 成 了 “数据 失真 ”数据 依赖 ?和 "“ 数 
气 安 全 ”等 数据 困惑 现象 。 


数据 失真 。 长 期 以 来 ， 人 类 利用 局 部 、 乒 面 的 数据 来 认识 和 改造 世 
界 ， 在 无 法 获取 实时 数据 时 甚至 会 纯粹 依赖 主观 经 验 和 理论 假设 把 握 未 
知 领域 ， 因 而 其 认识 往往 是 肤浅 的 ， 甚 至 是 错误 和 扭曲 的 。 正 如 《 连 
线 》 杂 志 前 任 主编 珊 里 斯 :安德森 所 说 :“ 面 对 大 规模 数据 ， 科 学 家 ' 假 
设 、 模 型 、 检 验 ' 的 方法 变 得 过 时 了 。” 其 一 ， 超 数据 来 临 使 人 类 掌握 了 
一 种 全 新 的 技术 ， 通 过 人 全面、 完整 和 系统 地 掌控 各 种 数据 信息 探索 社会 
发 展 规律 成 为 可 能 。 其 二 ， 海 量 数据 可 能 会 带 来 数据 失真 甚至 处 处 是 假 
规律 的 现象 。 许 多 数据 部 是 草率 生成 的 、 令 人 误解 的 、 硅 张 的 或 者 根本 
古 错误 的 ， 成 为 不 民 数 据 。“ 数 据 量 大 并 不 意味 着 数据 价值 的 增加 ， 相 
反 这 往往 意味 着 数据 噪声 的 增多 ..…... 意 味 着 信息 垃圾 的 泛滥 ”，“ 数 据 量 
的 大 幅 增 加 会 造成 结果 的 不 准确 ， 一 些 错误 的 数据 会 混 进 数据 库 ”。 来 
源 不 同 的 各 种 信息 混杂 在 一 起 会 加 剧 超 数据 的 混乱 程度 ， 导 致 出 现 “ 错 
误 发 现 ? 的 风险 增加 。 斯 坦 福 大 学 教授 特 雷 弗 . 黑 斯 送 用 “在 一 堆 稻 草 里 
面 找 一 根 针 ? 来 形象 地 比喻 超 数据 时 代 的 数据 挖掘 现象 。 问 题 是 很 多 稻 
和 草 和 针 长 得 几乎 一 样 , “如 何 找到 一 根 针 ? 成 为 数据 挖掘 问题 上 面临 的 最 
大 难题 ， 海 量 数 据 带 来 显著 性 检验 的 问题 ， 将 使 我 们 很 难 找 到 真正 的 关 
联 。 在 超 数据 应 用 中 ， 如 果 挖 掘 分 析 的 价值 信息 建立 在 失真 数据 的 基础 
之 上 ， 就 会 做 出 错误 判断 和 预测 ， 甚 至 可 能 给 数据 应 用 者 带 来 巨大 的 灾 
难 。 


数据 依赖 。 超 数据 大 大 威胁 到 了 人 类 的 隐私 和 上 自由， 这 是 超 数 据 种 
来 的 新 威胁 。 与 此 同时 ， 它 也 加 剧 了 一 个 旧 威 胁 :， 过 于 依赖 数据 ， 而 数 
据 远 远 没有 我 们 所 想 的 那么 可 靠 。 数 据 依赖 会 导致 数据 潜 拜 和 数据 独 
裁 。“ 我 们 比 想 象 中 更 容易 受 数据 的 统治 一 一 让 数据 以 良 劳 参 半 的 方式 
统治 我 们 。 其 威胁 在 于 ， 我 们 可 能 会 完全 受 限 于 我 们 的 分 析 结 果 ， 即 使 
这 个 结果 理应 受到 质疑 。 或 者 说 我 们 会 形成 一 种 对 数据 的 执 迷 ， 因 而 仅 
仅 为 了 收集 数据 而 收集 数据 ， 或 者 赋予 数据 根本 无 权 得 到 的 信任 。” 过 
分 痴迷 数据 , “认为 掌握 了 数据 ， 也 就 进一步 接近 了 上 帝 ”, “我 们 相信 
上 和 希 ， 除 了 上 和 帝 ， 其 他 任何 人 都 必须 用 数据 说 话 ?”。 现 实生 活 中 ， 数 据 
正在 发 挥 巨大 的 威力 ， 在 争分夺秒 地 迈 向 数字 时 代 的 过 程 中 ， 城 市 经 
鹿 、 社 会 、 文 化 妃 至 军事 等 行业 对 数字 信息 的 依赖 程度 达到 了 极致 。 这 
一 方面 带 来 了 精准 与 效率 、 更 便捷 的 服务 效果 另 一 方面 ， 这 种 对 数字 
技术 的 高 度 依赖 性 反而 使 其 更 容易 遭受 攻击 和 毁灭 、 更 加 脆弱 。 在 超 数 
据 应 用 中 ， 可 能 会 出 现 两 种 数据 依赖 情形 。 一 是 过 分 迷信 数据 信息 ， 对 
超越 文化 或 常识 的 数据 视而不见 。 例 如 ， 城 市 政府 迷信 和 茶 种 宏观 的 经 济 
数据 ， 而 将 数据 的 平稳 等 同 于 经 济 平稳 ， 忽 上 略 了 潜在 的 经 济 安全 威胁 。 
当 出 现金 融 危机 征兆 时 ， 会 出 现 非 理性 地 引入 不 当 的 宏观 数据 来 掩盖 危 
机 的 可 能 性 。 二 是 过 分 依赖 历史 数据 。 城 市 政府 把 昔日 获取 的 数据 当 作 
未 来 政治 、 经 济 、 文 化 教育 决 集 的 重要 依据 。 当 今世 界 变 化 速度 之 快 早 
己 让 经 验 主义 失去 了 生机 和 效力 ， 过 去 和 未 来 已 经 不 可 同日 而 语 ， 即 使 
征 短 时 间 内 的 重复 ， 也 可 能 产生 完全 不 同 的 结果 。 过 分 依赖 数据 、 包 拜 
数据 ,“ 无 数据 ， 不 决策 "， 会 带 来 巨大 的 风险 。 在 超 数据 时 代 ， 一 项 决 
全 万 不 能 没有 数据 文 撑 ， 但 仅仅 依靠 数据 文 撑 来 做 决策 又 是 万 万 不 能 
的 。 


数据 安全 。 数 据 安全 问题 是 超 数 据 时 代数 据 异 化 风险 的 男 一 突出 表 
现 。 数 据 风 险 和 隐私 保护 成 为 数据 应 用 咀 待 突破 的 重要 问题 ， 其 紧迫 性 
不 容 忽视 。 超 数据 安全 是 一 场 必要 的 斗争 。 无 论 是 数据 抽取 与 数据 集 
成 、 数 据 隔离 与 数据 存储 ， 还 是 数据 分 析 与 数据 解释 ， 安 全 问题 部 贯穿 
于 数据 管理 的 始终 。 首 先 ， 超 数据 成 为 攻击 的 目标 。 攻 击 主要 来 自 外 


部 ， 不 法 分 子 、 黑 客 入 侵 数 据 库 并 盗 取 想 要 的 资料 ， 使 系统 无 法 正常 运 
行 。 超 数据 所 歼 含 的 价值 信息 非常 吸引 黑客 的 注意 和 攻击 ， 一 个 有 力 证 
据 是 近 几 年 来 互联 网 用 户 账号 的 失 锅 信息 被 非法 转卖 事件 频频 发 生 都 与 
黑客 有 关 。 种 种 迹象 表明 ， 我 国 城市 政府 和 重要 企业 网 站 都 遭遇 过 境外 
黑客 的 攻击 。 其 次 ， 隐 私 泄 露 风 险 日 益 加 大 。 以 往 所 采用 的 对 隐私 的 侵 
犯 的 物理 的 、 强 制 性 的 侵入 方式 ， 已 经 被 更 加 先进 、 更 加 微妙 的 新 方式 
蔡 代 ， 由 此 引发 隐私 风险 也 将 更 大 。 如 果 说 在 互联 网 时 代 ， 人 们 的 隐私 
会 受到 威胁 ， 那 么 超 数据 时 代 则 加 剧 了 这 种 威胁 。 互 联网 的 出 现 使 监视 
变 得 更 加 容易 ， 亚 马 进 监视 我 们 的 购物 情况 ， 百 度 监 视 我 们 的 网 页 浏览 
习惯 。 最 后 ， 技 术 发 展 增加 了 安全 风险 。 随 着 网 络 技术 的 发 展 ， 服 务 
器 、 防 火 墙 等 网 络 设备 和 数据 挖掘 应 用 系统 等 技术 的 广泛 使 用 ， 超 数据 
自动 收集 和 智能 分 析 效 率 得 以 提高 ， 安 全 风险 也 相应 地 增加 了 。 一 
面 ， 数 据 技术 本 身 的 安全 防护 存在 漏洞 ， 在 密 钥 生 成 、 存 储 和 管理 方面 
的 不 足 都 可 能 造成 数据 泄露 ， 另 一 方面 ， 攻 击 的 技术 水 平 提高 ， 攻 击 者 
也 在 利用 这 些 数据 技术 进行 攻击 。 一 旦 受到 恶意 攻击 ， 系 统 不 能 正 
行 甚至 全 部 次 痪 ， 整 个 社会 就 可 能 陷入 危机 。 
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> es 
数据 拥堵 与 数据 治理 


(一 ) 数据 拥堵 的 由 来 


经 过 农业 革命 、 工 业 间 命 的 “洗礼 "之 后 ， 人 类 社会 正在 经 历 一 场 数 
字音 命 。 当 前 ， 以 数字 技术 为 代表 的 新 一 轮 科 技 昔 命 正在 深刻 改变 人 们 
的 生产 生活 方式 ， 生 产 力 实现 了 质 的 飞跃 ， 引 发 生产 关系 重大 变革 ， 成 
为 重 塑 国际 经 济 、 政 治 、 文 化 、 社 会 、 生 态 、 苗 事 发 展 新 格局 的 主导 力 
量 。 数 据 拥 墙 可 以 说 是 人 类 社会 数字 化 快速 发 展 的 反映 ， 数 据 拥 堵 关 系 
着 人 类 社会 的 正常 生活 和 工作 ， 成 为 超 数 据 时 代 最 重要 、 最 急需 解决 的 
数据 治理 难题 。 


数据 “条 ”“ 块 ”分 割 严重 ， 重 复 采 集 、 重 复 录 入 ， 不 断 做 “条 数 
据 ” 的 增 量化 ， 造 成 数据 拥堵 。 条 数据 是 传统 人 类 研究 范式 的 数据 化 体 
现 ， 是 对 单独 领域 的 深化 ， 不 同 领域 间 彼 此 割裂 、 互 不 融通 。 类 似 目前 
人 类 的 科学 研究 被 划分 为 众多 学 科 ， 对 科学 的 研究 只 是 在 特定 研究 领域 
内 不 断 地 深化 和 推进 ， 而 学 科 之 间 役 此 没有 联系 。 目 1946 年 世界 上 第 一 
台电 脑 ENIAC 在 美国 宾夕法尼亚 大 学 面世 以 来 ， 信 息 化 建设 过 程 基 本 就 
是 以 条 数据 呈现 的 ， 普 遍 存 在 条 块 分 割 和 信息 孤岛 的 现象 。 条 数据 化 的 
建设 产生 了 数据 单一 、 数 据 封闭 、 数 据 垄 断 等 问题 ， 具 体 表 现 为 不 同行 
业 之 间 的 系统 与 数据 几乎 没有 交集 。 同 一 行业 、 同 一 领域 ， 如 交通 、 社 
保 系 统 内 部 等 ， 也 是 按 行政 领域 进行 划分 建设 的 ， 跨 区 域 的 信息 交互 和 
协同 非常 困难 。 严 重 的 其 至 在 同一 单位 内 ， 如 一 些 医院 的 信息 系统 建 
设 ， 病 历 管理 、 病 床 信 息 、 药 品 管理 等 子 系统 都 是 分 立 建 设 的 ， 没 有 实 
现 信息 共 吝 和 互通 ， 进 而 导致 同一 数据 多 部 门 、 多 时 间 重 复 采 集 、 重 复 


录入 ， 造 成 数据 的 海量 式 激 增 ， 同 时 也 造成 大 量 的 人 力 资 源 、 数 据 存储 
资源 、 网 络 资 源 浪费 。 


超 数 据 时 代 现 有 数据 库存 储 架 构 难 以 支撑 海量 数据 来 回调 度 ， 面 临 
速度 响应 困境 ， 造 成 数据 拥堵 。 关 系 型 数据 库 管 理 系统 一 般 采 用 集中 式 
的 存储 和 处 理 ， 没 有 分 布 式 架构 ， 在 很 多 大 型 企业 中 的 配置 往往 都 是 
IBM 服 务 器 、Oracle〈 甲 骨 文 ) 数据 库 、EMC ( 易 安 信 ) 存储 。 在 这 种 
典型 配置 中 ， 单 台 服 务 器 的 配置 通常 都 很 高 ， 可 以 多 达 几 十 个 CPU (中 
央 处 理 器 ) 核 ， 内 存 也 能 达到 上 百 GB。 数 据 库 的 存储 放 在 高 速 大 容量 
的 磁 阵 上 ， 存 储 空间 可 达 TB 级 。 这 种 配置 对 传统 的 信息 管理 系统 来 说 
是 可 以 满足 需求 的 ， 但 面 对 不 断 增 长 的 数据 量 和 动态 数据 使 用 场景 ， 这 
种 集中 式 的 处 理 方式 就 日 益 成 为 肚 倾 ， 尤 其 是 在 速度 啊 应 方面 捉 襟 见 
肘 。 超 数据 时 代 ， 在 面 对 海 量 数 据 的 导入 导出 、 统 计 分 析 、 检 索 查 询 方 
面 ， 由 于 依赖 集中 式 的 数据 存储 和 索引 ， 性 能 随 着 数据 量 的 增长 而 急速 
下 降 ， 对 于 需要 实时 响应 的 统计 及 查询 场景 更 是 无 能 为 力 。 比 如 在 物 联 
网 中 ， 传 感 器 的 数据 可 以 达 几 十 亿 条 ， 对 这 些 数据 需要 进行 实时 入 库 、 
得 询 及 分 析 ， 关 系 型 数据 库 管理 系统 就 不 再 适用 。 


超 数 据 时 代数 据 种 类 和 格式 复杂 多 样 ， 现 有 数据 存储 模式 难以 应 对 
不 断 变化 的 数据 存储 需求 ， 造 成 数据 拥堵 。 关 系 型 数据 库 管理 系统 对 于 
结构 化 、 固 定 模 式 的 数据 ， 已 经 形成 相当 成 熟 的 存储 、 查 询 、 统 计 处 理 
方式 。 超 数据 时 代 ， 物 联网 、 互 联网 及 移动 通信 网 络 飞 速 发 展 ， 数 据 的 
格式 及 种 类 在 不 断 变化 和 发 展 。 例 如 ， 在 智能 交通 领域 ， 所 涉及 的 数据 
可 能 包 仿 文本、 日志、 图片 、 视 频 、 矢 量 地 图 等 来 自 不 同 数据 采集 监控 
源 的 不 同 种 类 的 数据 。 这 些 数据 的 格式 通常 都 不 是 固定 的 ， 采 用 结构 化 
的 存储 模式 将 很 难 应 对 不 断 变 化 的 需求 。 因 此 ， 对 于 这 些 种 类 各 寞 的 多 
源 异 构 数 据 ， 需 要 采用 不 同 的 数据 处 理 和 存储 处 理 模式 ， 结 合 结构 化 和 
非 结构 化 数据 存储 。 在 整体 的 数据 管理 模式 和 架构 上 ， 也 需要 采用 新 型 
的 分 布 式 文件 系统 及 分 布 式 数据 库 染 构 ， 才 能 适应 超 数据 时 代 海 量 数 据 
及 变化 的 结构 。 


(二 ) 从 生命 周期 视角 思考 数据 拥 声 


数据 采集 与 数据 拥堵 。 为 了 避免 造成 数据 拥堵 ， 超 数据 时 代 的 数据 
采集 应 当 结合 数据 使 用 战略 和 目标 ， 制 定数 据 采 集 策 略 。 超 数据 时 代 ， 
数据 采集 策略 可 以 从 两 个 方向 展开 。 第 一 个 方向 是 尽量 多 地 采集 与 自身 
相关 的 数据 ， 并 整合 到 同一 平台 。 该 策略 的 实施 一 般 需 要 两 个 条 件 : 首 
先 ， 需 要 较 高 的 成 本 投入 ， 内 部 数据 的 采集 、 外 部 数据 的 获取 都 需要 较 
高 的 成 本 投入 ， 同 时 将 数据 存储 和 整合 到 数据 平台 上 也 需要 较 大 的 
IT( 信 息 技 术 ) 设施 投入 ; 其 次 ， 需 要 较 强 的 数据 专家 团队 ， 能 够 快速 
甄别 数据 并 发 现 数据 的 价值 ， 如 果 无 法 从 数据 中 发 现价 值 ， 较 大 的 投入 
无 法 快速 得 到 回报 ， 就 无 法 持续 。 第 二 个 方向 是 以 需求 为 导向 的 数据 采 
集 策 略 。 在 业务 或 管理 提出 数据 需求 之 后 ， 再 进行 数据 采集 并 整合 到 数 
据 平 台 。 该 策略 能 够 有 效 避 免 第 一 种 策略 投入 过 大 的 问题 ， 但 是 完全 以 
需求 为 导 回 的 数据 采集 往往 无 法 从 数据 中 发 现 * 惊 喜 ”， 在 目标 既定 的 情 
况 下 ， 数 据 的 采集 和 分 析 都 容易 出 现 思维 限制 。 对 于 完全 数字 化 的 企 
业 ， 如 BAT 百度、 阿里 巴巴 、 腾 讯 ) 等 互联 网 企业 ， 建 议 采 用 第 一 种 
数据 采集 策略 ， 对 于 目前 尚 处 于 数字 化 过 程 中 ， 经 费 较 少 、 数 据 能 力 成 
熟 度 较 低 的 企业 ， 建 议 采 用 第 二 种 数据 采集 策略 。 


数据 存储 与 数据 拥堵 。 超 数据 时 代 ， 采 用 传统 的 统一 技术 存储 和 处 
理 所 有 数据 的 方法 将 不 再 适用 ， 而 应 针对 不 同 热度 的 数据 采用 不 同 扩 术 
进行 处 理 ， 以 优化 存储 和 处 理 成 本 并 提升 可 用 性 。 结 合 超 数 据 的 特征 和 
属性 ， 可 以 引入 “数据 热度 ”的 概念 ， 即 根据 数据 的 价值 、 使 用 频次 、 使 
用 方式 的 不 同 ， 将 数据 划分 为 热 数 据 、 温 数据 和 冷 数据 ( 见 表 1-4) 。 
热 数据 是 指 价值 密度 高 、 使 用 频次 高 、 文 持 实 时 化 得 询 和 展现 的 数据 ; 
冷 数据 是 指 价值 密度 低 、 使 用 频次 低 、 用 于 数据 筛选 和 检索 的 数据 ， 温 
数据 介 于 两 者 之 间 ， 主 要 用 于 数据 分 析 。 对 不 同 热度 的 数据 ， 应 采用 不 
同 的 存储 集 略 。 冷 数据 一 般 包 含 所 有 的 结构 化 和 非 结 构 化 数据 ， 其 价值 
密度 低 ， 存 储 容量 较 大 ， 使 用 频次 较 低 ， 一 般 采 用 低 成 本 、 低 并 友 访 问 


的 存储 技术 ， 并 要 求 能 够 文 持 存 储 容量 的 快速 模 向 扩展 。 温 数据 一 般 包 
含 结构 化 数据 和 将 非 结构 化 数据 进行 结构 化 处 理 后 的 数据 ， 存 储 容量 偶 
大 ， 使 用 频次 中 等 ， 一 般 用 于 业务 分 析 。 由 于 涉及 业务 分 析 ， 会 涉及 数 
据 之 间 的 关联 计算 ， 对 计算 性 能 和 图 形 化 展示 性 能 的 要 求 较 高 ， 但 该 类 
数据 一 般 为 可 再 生 数 据 ， 即 通过 其 他 数据 组 合 或 计算 后 生成 的 数据 ， 对 
数据 获取 实效 性 和 备份 要 求 不 高 。 热 数据 一 般 要 求 采用 支持 性 能 高 、 高 
并 发 的 平台 ， 并 通过 局 可 用 技术 ， 实 现 高 可 靠 性 。 对 于 温 数据 ， 建 议 采 
用 较为 可 靠 的 文 持 高 性 能 计算 的 技术 ， 以 及 文 持 可 视 化 分 析 工 具 的 平 


台 。 对 于 冷 数 据 ， 建 议 采 用 低 成 本 、 大 容量 、 可 扩展 的 技术 。 


数据 使 用 频 度 “| 高 、 
数据 使 用 方式 ”| 静态 报表 或 查询 数据 筛选 、 检 索 


表 1-4 数据 热度 区 分 


基于 数据 进行 决策 寻找 有 意义 的 数据 和 
数据 使 用 目的 数据 的 意义 


数据 存储 时 低 N 
数据 使 用 工具 可 视 化 展现 工具 可 视 化 分 析 工 具 编程 语言 和 技术 工具 
数据 使 用 者 决策 者 、 管 理 者 业务 分 析 者 数据 专家 


数据 分 析 与 数据 拥堵 。 超 数据 时 代 的 数据 分 析 与 应 用 一 般 可 以 分 为 
两 个 方向 。 第 一 个 方 同 是 以 业务 为 驱动 〈 即 以 业务 需求 为 导向 〉 的 数据 
分 析 与 应 用 。 业 务 人 员 根 据 业 务 发 展 的 要 求 提 出 数据 分 析 与 应 用 的 需 
求 ， 明 确 分 析 的 目标 ， 数 据 分 机 人员 根 据 该 目标 进行 统计 、 分 析 、 数 学 
建 模 等 工作 ， 形 成 分 析 结 果 或 数学 模型 ， 技 术 开 发 人 员 结合 业务 需求 和 
数据 分 析 结 果 开 发 应 用 类 软件 。 第 二 个 方向 是 以 数据 为 驱动 的 数据 分 析 
与 应 用 ， 即 从 数据 出 及 ， 发 现 数 据 价 值 ， 推 广 到 应 用 。 数 据 分 析 人 员 对 


数据 进行 研究 ， 发 现 数 据 间 的 关联 关系 ， 提 出 新 发 现 的 业务 分 析 方 向 和 
应 用 方向 ， 并 提供 给 业务 部 门 。 在 实际 应 用 的 过 程 中 ， 往 往 两 种 方式 相 
结合 : 数据 分 析 人 员 在 处 理 业务 部 门 提 出 的 需求 时 ， 往 往 会 有 更 深 一 层 
的 数据 探索 ; 业务 部 门 基 于 数据 分 析 的 结果 ， 往 往 会 调整 分 析 目 标 ， 并 
提出 进一步 分 析 的 需求 。 


数据 清理 与 数据 拥堵 。 超 数据 时 代数 据 清理 的 目的 主要 有 两 个 : 一 
古 无 关 数 据 的 清理 ， 二 是 低 质 量 数 据 的 清理 。 通 俗 地 说 ， 就 是 清理 垃圾 
数据 。 超 数据 环境 中 的 数据 清理 与 传统 的 数据 清理 有 所 区 别 。 对 传统 数 
据 而 言 ， 数 据 质 量 是 一 个 很 重要 的 特性 ， 但 对 于 超 数 据 ， 数 据 可 用 性 变 
得 更 为 重要 。 传 统 意义 的 垃圾 数据 也 可 以 “ 变 废 为 宝 "。 对 于 不 同 的 可 用 
性 数据 ， 应 建立 不 同 的 质量 标准 。 应 用 于 财务 统计 的 数据 和 应 用 于 分 析 
的 数据 ， 在 质量 标准 上 应 该 有 所 不 同 。 有 些 用 途 必 须 严 格 茶 止 垃圾 数据 
进入 ;有些 用 途 讲 求 数据 的 全 面 性 ， 但 对 数据 质量 的 要 求 不 高 ， 有 些 用 
途 ， 如 审计 与 风险 控制 ， 甚 至 需要 专门 关注 垃圾 数据 ， 从 一 些 不 符合 四 
辑 的 数据 中 发 现 问题 。 因 此 ， 在 超 数 据 应 用 中 不 建议 直接 清理 志 圾 数 
据 ， 而 是 要 对 数据 质量 进行 分 级 。 不 同 质 量 等 级 的 数据 满足 不 同 层次 的 
应 用 需求 。 


(三 ) 数据 拥堵 的 治理 范式 


超 数据 时 代 的 主要 任务 不 是 获取 越 来 越 多 的 数据 ， 而 古 数据 的 去 元 
分 类 、 去 粗 取 精 ， 从 海量 无 序 的 数据 中 挖掘 有 价值 的 信息 。 小 数据 时 
代 ， 人 类 基于 上 自 员 的 生活 经 验 ， 创 造 出 数 、 数 字 和 数据 并 加 以 运用 。 大 
数据 时 代 ， 人 类 做 的 事情 是 处 理 数据 “从 注 到 厚 *”， 把 小 数据 变 成 大 数 
据 。 超 数据 时 代 ， 人 类 要 做 的 事情 是 处 理 数 据 *< 从 厚 到 注 *， 把 大 数据 变 
成 小 数据 ， 在 不 明显 增加 成 本 的 前 提 下 尽 可 能 地 提高 数据 的 质量 ， 创 新 
数据 治理 思维 ， 从 数据 科学 、 生 命 科 学 、 社 会 科学 、 智 能 科学 等 角度 探 
索 治 理 数 据 拥堵 新 范式 。 


数据 拥堵 的 数据 科学 治理 范式 。 数 据 本 身 存 在 着 从 产生 到 消亡 的 生 
命 周期 ， 在 数据 的 生命 周期 中 ， 数 据 的 价值 会 随 着 时 间 的 推移 而 发 生变 
化 。 数 据 的 被 采集 粒度 与 实效 性 、 存 储 方式 、 整 合 状况 、 呈 现 和 展示 的 
可 视 化 程度 、 分 析 的 深度 ， 以 及 和 应 用 衔接 的 程度 ， 都 会 对 数据 价值 的 
体现 产生 影响 。 超 数据 时 代 的 数据 拥堵 治理 可 以 结合 数据 生命 周期 各 阶 
段 的 特点 ， 采 取 不 同 的 管理 和 控制 手段 。 例 如 ， 结 合 超 数据 的 基本 特 
征 ， 研 究 超 数据 下 以 数据 为 中 心 的 计算 模式 ， 突 破 现 阶段 的 数据 围绕 机 
器 式 计 算 ， 构 建 以 数据 为 中 心 的 推送 式 计算 模 式 ， 探 索 基 于 块 数据 结构 
的 系统 架构 模型 及 其 计算 理论 ， 研 究 分 布 化 、 流 式 计算 算法 ， 形 成 通 
信 、 存 储 、 计 算 融 合 优化 的 超 数据 计算 框架 。 同 时 ， 从 数据 全 生命 周 
期 “倒序 ”的 视角 ， 探 索 预 言 性 数据 分 析 问 题 三 从 “足够 多 ”的 数据 
到 “刚刚 好 ”的 数据 ， 再 到 “有 价值 ”的 数据 的 按 需 约 简 方 法 ， 研 究 基于 自 
举 “三 和 采样 的 局 部 计算 与 近似 方法 ， 提 出 不 依赖 全 量 数据 的 新 型 算法 
理论 基础 。 


数据 拥堵 的 生命 科学 治理 范式 。 遗 忘 特性 是 人 脑 的 核心 功能 之 一 。 
遗 筷 是 对 人 类 记忆 的 科 选 ， 对 人 类 不 断 记 忆 和 学 习 有 痢 积极 意义 。 研 究 
表明 ， 人 脑 记忆 事物 并 不 是 一 次 性 记 住 事物 的 整体 ， 而 是 先 通过 神经 元 
的 计算 分 析 将 事物 分 为 磊 干 信息 粒子 ， 再 根据 各 个 信息 粒子 之 间 的 关系 
记忆 事物 。 同样， 人 脑 对 于 事物 的 遗 瑟 也 并 非 一 次 性 将 事物 整体 遗忘， 
而 是 先 遗忘 组 成 事物 的 部 分 信息 粒子 及 信息 粒子 之 间 的 关联 关系 ， 进 而 
遗 起 事物 整体 。 此 外 ， 人 类 的 遗 筷 特性 会 随 看 时 间 的 推移 而 减弱 。 那 些 
出 现时 对 人 类 刺激 程度 较 大 的 事物 将 会 变 成 人 类 的 深层 记忆 ， 昌 不 甸 被 
想起 ， 但 也 不 会 被 态 记 ， 而 对 那些 出 现时 对 人 类 刺激 程度 较 小 的 事物 ， 
人 们 在 封存 记忆 或 者 完全 起 记 之 前 会 出 现 一 段 记忆 模糊 的 时 间 ， 即 能 够 
记得 其 曾 发 生 或 出 现 过 ， 但 对 细节 、 内 容 的 记忆 十 分 模糊 。 在 超 数 据 时 
代 ， 数 据 本 里 不 具有 “ 遗 喜 ”特性 ， 也 不 会 自动 删 减 ， 只 会 源源 不 断 地 被 
存储 、 被 记录 ， 进 而 导致 大 面积 的 存储 浪费 ， 甚 至 存储 次 痪 。 块 数据 染 
构 是 一 种 相互 天 联 的 架构 ， 只 有 把 离散 孤立 的 点 数据 和 单 维度 不 断 沿 增 


的 条 数据 放 到 块 数据 的 架构 上 ， 才 能 知道 哪些 数据 是 无 效 数据 、 见 余数 
据 ， 是 可 以 做 减 量 的 数据 ， 从 而 对 这 部 分 数据 进行 封存 、“ 遗 忘 ”"， 进 而 
做 到 对 数据 的 减 量 和 对 数据 拥堵 的 治理 。 


数据 拥堵 的 社会 科学 治理 范式 。 相 比 小 数据 时 代 和 大 数据 时 代 ， 超 
数据 时 代 是 一 个 更 加 开放 、 更 加 复杂 的 巨 系统 。 超 数据 时 代 ， 人 类 积 标 
数据 的 能 力 远 远 超 过 处 理 数 据 的 能 力 。 垃 圾 数据 泛滥 ， 数 据 识别 难度 加 
大 ， 数 据 采集 、 和 存储 和 使 用 方式 发 生 重 大 变化 ， 加 剧 了 社会 的 不 确定 性 
和 不 可 预知 性 。 解 决 超 数据 时 代 “ 数 据 病 ?的 困扰 ， 应 回归 到 以 人 为 原点 
的 数据 社会 学 的 思维 模式 ， 而 数据 社会 学 的 核心 是 以 社会 学 为 原点 进行 
多 维度 数据 分 析 。 社 会 学 是 运用 科学 的 方法 研究 社会 与 人 类 行为 的 综合 
性 学 科 ， 它 包括 社会 经 济 学 、 社 会 心理 学 、 社 会 历史 学 、 社 会 行为 学 ， 
甚至 包括 法 律 、 伦 理 、 宗 教 、 人 文 、 政 治 等 内 容 。 社 会 学 研究 本 身 的 综 
合 性 和 研究 对 象 的 复杂 性 决定 了 其 更 多 的 相关 性 。 基 于 数据 社会 学 的 数 
据 分 析 方 法 ， 优 先 挖掘 并 使 用 那些 强 关 联 的 数据 ， 并 对 那些 弱 关 联 或 者 
坚 无 天 联 的 数据 进行 合理 剔除 与 减 量 。 


数据 拥堵 的 智能 科学 治理 范式 。 受 到 脑 部 工作 理念 启发 ， 发 展 类 脑 
智能 现 已 成 为 人 工 留 能 学 科 及 计算 机 应 用 相关 领域 研究 的 热点 。 类 脑 智 
能 是 超 数据 时 代数 据 处 理 的 重要 方式 。 类 脑 智 能 是 以 计算 建 模 为 应 用 手 
段 ， 受 人 体 脑 部 神经 机 制 调节 和 人 机 行为 理念 开发 并 依据 软 便 件 共同 运 
作 实现 的 机 器 乔 能 。 因 此 ， 研 究 类 脑 乔 能 数据 挖掘 ， 对 及 展 具 有 协同 多 
种 不 同 认 知 能 力 的 海量 数据 处 理 及 非 结 构 化 复杂 形式 数据 分 析 具 有 重要 
意义 。 在 对 类 脑 智能 数据 挖掘 的 过 程 中 ， 先 要 完成 对 类 脑 智能 数据 的 预 
处 理 ， 降 低 后 续 计 算 的 复杂 程度 。 由 于 类 脑 智能 数据 变量 的 变化 具有 模 
糊 性 ， 为 保证 变量 能 够 尽 可 能 地 保留 原 有 变量 捷 表 现 的 信息 ， 依 据 马 氏 
距离 “三 来 调整 类 脑 智能 数据 变量 之 间 的 相关 性 ， 并 通过 关联 规则 找寻 
在 茶 一 类 脑 智能 数据 库 中 不 同 项 目 之 间 的 关联 ， 确 定 最 小 支持 度 和 最 小 
置信 度 后 ， 对 离散 化 的 智能 数据 进行 属性 的 约 简 ， 在 此 基础 上 通过 对 关 
联 规则 数据 挖掘 处 理 获 得 的 集合 进行 交互 ， 完 成 对 类 脑 智能 数据 的 挖 


据 。 


1. 预言 性 数据 分 析 问 题 ， 即 建立 一 种 理论 ， 对 求解 一 个 问题 达到 某 种 满意 程度 需要 多 
大 规模 的 数据 量 给 出 理论 上 的 判断 。 数 据 量 少 于 这 个 判断 值 ， 问 题解 决 不 了 ; 数据 量 达 
到 这 个 判断 值 ， 束 可 以 解决 以 前 解决 不 了 的 大 问题 ， 数 据 量 超过 这 个 判断 值 ， 对 解决 问 
题 也 没有 更 多 的 帮助 。 

2. 自 举 ， 指 利用 有 限 的 样本 资料 经 由 多 次 重复 抽样 ， 重 新 建立 起 足以 代表 母体 样本 分 
布 的 新 样本 。 

3. 马 氏 距离 是 由 印度 统计 学 家 马 哈 拉 诺 比 斯 提出 的 ， 表 示 数 据 的 协 方差 距离 。 它 是 一 
种 计算 两 个 未 知 样本 集 的 相似 度 的 有 效 方法 。 


全 A 一 二 


第 二 重 
激活 数据 学 : 基于 块 效 据 理论 的 解决 方 
交 


人 


数据 和 信息 在 人 类 社会 、 物 理 空间 与 信息 空间 之 间 的 交叉 融 合 及 相 
互 作用 ， 正 在 深刻 地 改变 人 类 之 间 、 人 类 与 物理 环境 和 社会 之 间 的 关系 
与 互动 模式 ， 信 息 技 术 的 进步 和 普及 催生 的 数据 的 定义 与 收集 方式 的 单 
命 性 变化 ， 使 数据 呈现 爆炸 式 增长 的 趋势 。 


面 对 数 据 的 爆炸 式 增长 ， 以 及 人 类 社会 活动 、 工 程 技 术 和 科学 研究 
各 个 领域 的 高 复杂 性 、 不 确定 性 与 脆弱 性 问题 ， 如 何 实现 海量 数据 的 有 
效 积 累 ， 并 将 其 转化 为 知识 应 用 于 人 类 多 样 化 的 场景 ， 需 要 从 根本 上 重 
新 思考 我 们 的 方法 。 


激活 数据 学 的 提出 ， 为 更 有 效 地 运用 人 类 智能 与 机 器 智能 应 对 超 数 
据 和 危机 提供 了 新 的 思路 和 重要 的 方法 论 ， 帮 助 我 们 更 好 地 把 握 人 类 社会 
发 展 的 规律 ， 以 科学 的 发 展 观 理性 地 塑造 更 智能 化 的 生存 环境 。 


第 一 节 
复杂 理论 与 块 数据 


(一 ) 复杂 性 的 涌现 


长 期 以 来 ， 简 单 性 原则 一 直 是 科学 家 考察 世界 的 主要 思维 方式 。 在 
近代 目 然 科 学 形成 后 的 长 达 几 个 世纪 里 ， 世 界 被 描绘 成 一 部 由 各 种 做 工 
精密 的 零 部 件 组 成 的 大 机 器 。 从 牛顿 到 爱 因 斯 坦 ， 科 学 研究 的 一 大 突出 
特点 是 确立 了 “现实 世界 简单 性 ”的 观念 ， 其 中 以 还 原 论 为 代表 。 还 原 论 
认为 整体 是 由 个 体 的 简单 相 加 或 机 械 组 合 形成 的 ， 即 “整体 等 于 个 体 之 
和 ”， 并 认为 世界 上 的 所 有 东西 都 可 以 通过 足够 的 细 分 变 为 简单 的 个 
体 ， 例 如 把 研究 对 象 分 解 为 各 种 简单 的 要 素 ， 诸 如 基本 粒子 、 原 子 、 分 
子 等 ， 只 要 将 这 些 要 素 的 基本 属性 研究 清楚 就 能 得 出 整体 的 特征 规律 。 
这 种 研究 路 线 确 实 对 近代 科学 做 出 了 不 可 磨灭 的 巨大 贡献 。 


基于 现实 世界 的 复杂 性 、 不 确定 性 、 多 变性 、 有 误差 性 等 因素 ， 当 
我 们 将 简单 性 原则 推广 到 现实 世界 涌现 的 越 来 越 多 的 复杂 性 现象 中 去 的 
时 候 ， 似 乎 已 经 不 太 适用 ， 越 来 越 多 的 事实 和 科学 发 现 不 断 冲 击 着 “ 现 
实 世 界 简单 性 ”这 一 根深 蒂 固 的 观念 。20 世 纪 40 年 代 以 来 ， 科 学 前 沿 出 
现 了 一 种 研究 目 然 与 社会 现象 的 全 新 的 方法 论 一 一 复杂 性 方法 。 复 杂 性 
方法 是 系统 地 、 综 合 地 研究 事物 的 新 方法 。 复 杂 系 统 理 论 的 提出 为 人 们 
认识 、 了 解 、 控 制 和 管理 复杂 系统 提供 了 新 的 思路 与 视角 ， 对 于 认识 与 
解释 社会 、 生 物 等 复杂 系统 具有 特别 的 意义 。 三 


自然界、 人 自身 及 人 类 社会 普遍 存 在 着 无 数 的 复杂 性 现象 ， 例 如 生 
物体 系统 、 人 脑 系统 、 地 理 系统 、 生 态 系统 、 社 会 系统 、 星 系 系统 等 。 


这 些 系统 无 论 在 结构 、 功 能 、 行 为 还 是 演化 方面 都 很 复杂 。 直 到 今天 ， 
还 有 大 量 的 问题 ， 我 们 并 不 知道 答案 。 如 人 脑 系 统 ， 由 于 人 脑 的 记忆 、 
思维 和 推理 功能 及 意识 作用 ， 它 的 输入 一 输出 反应 特性 极为 复杂 。 人 和 脑 
可 以 利用 过 去 的 信息 记忆》 和 未 来 的 信息 (推理 ) ， 以 及 当时 的 输入 
言 息 和 环境 作用 ， 做 出 各 种 复杂 反应 。 从 时 间 角 度 看 ， 这 种 反应 可 以 是 
实时 反应 、 灌 后 反应 ， 其 至 超前 反应 。 从 反应 类 型 看 ， 可 能 是 真 反应 ， 
也 可 能 是 假 反应 ， 甚 至 没有 反应 。 所 以 ， 人 的 行为 绝 不 是 什么 简单 
的 “条 件 反射 "”， 它 的 输入 一 输出 特性 随时 间 而 变化 。 实 际 上 ， 人 脑 有 
1012 个 神经 元 ， 还 有 同样 多 的 胶 质 细胞 ， 它 们 之 间 的 相互 作用 又 远 比 一 
个 电子 开关 复杂 得 多 ， 所 以 美国 IBM 研 究 所 的 E. 克 莱 门 蒂 曾 说 ， 人 脑 像 
由 102 台 每 秒 运算 10 亿 次 的 巨型 计算 机 关联 而 成 的 大 计算 网 络 。 


再 上 一 个 层次 ， 就 是 以 人 为 子 系统 主体 而 构成 的 系统 ， 这 类 系统 的 
子 系统 还 包括 由 人 制造 出 来 的 具有 智能 行为 的 各 种 机 器 。 由 于 人 的 意识 
作用 ， 子 系统 之 间 的 关系 不 仅 复杂 而 且 具 有 极 强 的 易 变 性 。 一 个 人 本 身 
就 是 一 个 复杂 巨 系统 ， 人 类 又 以 大 量 的 复杂 巨 系统 为 子 系统 组 成 一 个 巨 
系统 一 社会 。 人 认识 客观 世界 ， 不 单 要 靠 实践 ， 还 要 用 人 类 过 去 创造 
出 来 的 精神 财富 ， 知 识 的 掌握 与 利用 是 十 分 重要 的 。 什 么 知识 都 不 用 ， 
那 就 退回 到 100 多 万 年 前 我 们 祖先 的 水 平 了 。 人 已 经 创造 出 巨大 的 高 性 
能 的 计算 机 ， 还 致力 于 研制 有 智能 行为 的 机 器 ， 人 与 这 些 机 器 作为 系统 
中 的 子 系统 互相 配合 ， 和 谐 地 开展 工作 ， 这 是 迄今 为 止 最 复杂 的 系统 
了 . 千 

随 着 超 数据 时 代 的 来 临 ， 人 类 、 机 器 人 、 众 多 智能 体 无 弘 戏 入 庞大 
的 互联 网 、 物 联网 ， 行 进 于 更 开放 的 交互 环境 ， 共 同形 成 了 一 个 不 断 自 
我 演化 的 复杂 整体 。 人 类 社会 活动 各 个 领域 的 高 复杂 性 、 不 确定 性 和 及 
弱 性 问题 将 进一步 凸显 。 


从 茶 种 意义 上 说 ， 大 数据 的 价值 只 有 在 其 能 够 被 规范 成 为 可 供 分 析 
的 形式 之 后 才能 最 大 限度 地 被 挖掘 出 来 。 然 而 ， 在 巨 量 的 大 数据 面前 ， 


实际 上 可 供 规 范 分 析 的 数据 只 有 极 少数 ， 许 多 数据 都 停留 在 “ 雁 片 化 ? 哈 
段 而 难以 被 真正 挖掘 和 分 析 。 妆 数据 量 急 剧 增长 ， 数 据 垃圾 越 来 越 多 
时 ， 人 类 或 许 会 陷入 某 种 程度 上 的 认 知 障碍 ， 难 以 系统 认 知 复杂 事物 。 


通过 对 复杂 性 的 进一步 探索 ， 可 以 认为 ， 超 数据 时 代 的 社会 是 “ 科 
学 问题 + 工程 问题 + 社会 问题 "的 复杂 系统 ， 靠 传统 的 认 知 、 观 训 很 难 了 
解 它 ， 需 要 在 复杂 性 思维 方法 的 指导 下 ， 将 传统 认 知 方式 与 新 的 认 知 方 
式 结 合 在 一 起 ， 才 能 对 和 它 进 行 新 的 改造 。 现 在 ， 用 复杂 性 系统 思维 认识 
世界 和 改造 世界 之 旅 已 经 开始 。 


(二 ) 块 数据 的 数据 观 


摩尔 定律 驱动 的 信息 技术 的 不 断 廉价 化 和 互联 网 的 普及 ， 以 及 其 延 
伸 所 带 来 的 无 处 不 在 的 信息 技术 应 用 ， 催 生 了 大 数据 时 代 。 过 去 10 年 ， 
人 类 在 互联 网 、 云 计算 、 大 数据 、 物 联网 等 领域 取得 了 突飞猛进 的 进 
展 ， 这 些 拉 术 的 进步 成 就 了 硅谷 的 苹果 、 谷 歌 和 中 国 的 BAT 等 一 批 互 联 
网 公司 ， 大 数据 已 经 在 经 济 领域 、 社 会 领域 彻底 颠 履 人 类 自 工业 革命 以 
来 积累 形成 的 经 济 模式 、 商 业 模 式 和 治理 模式 。 


大 数据 发 展 的 核心 动力 源 于 人 们 测量 、 记 录 和 分 析 世 界 的 淘 望 ， 满 
足 这 些 渴望 需要 数据 、 技 术 和 思维 三 大 要 素 。 在 计算 技术 、 通 信 技 术 日 
茶 成 熟 的 今天 ， 在 廉价 、 便 捷 的 数字 化 存储 普及 的 当下 ， 数 据 无 处 不 
在 ， 技 术 正 以 标准 化 、 商 品 化 的 方式 提供 ， 事 实 上 思维 和 方法 论 才 是 决 
定 大 数据 成 败 的 关键 。 但 是 目前 看 来 ， 路 越 学 科 与 学 科 、 学 术 与 产业 、 
技术 与 应 用 之 间 的 鸿沟 的 方法 论 依然 不 完善 ，“ 块 数据 ”的 提出 提供 了 一 
种 全 新 的 数据 观 。 


块 数据 源 于 条 数据 。 目 前 ， 人 类 形成 的 大 数据 更 多 的 是 以 领域 、 行 
业 为 单位 ， 彼 此 割裂 、 互 不 相通 的 条 数据 。 概 括 来 说 ， 条 数据 有 4 个 基 


本 特征 。 第 一 ， 领 域 单 一 。 由 于 产生 于 某 一 个 特定 行业 领域 ， 条 数据 信 
县 量 比较 单一 ， 更 多 的 是 就 医疗 谈 医疗 、 束 教育 谈 教育 ， 局 限 在 茶 一 个 
小 圈子 里 ， 视 野 相 对 不 开阔 。 第 二 ， 数 据 封 闭 。 条 数据 更 多 地 被 少数 企 
业 、 行 业 或 者 部 门 独占 ， 不 共享 、 不 开放 ， 想 获得 数据 的 全 貌 比 较 困 

难 。 第 三 ， 数 据 垄 断 。 数 据 本 喘 构成 了 企业 或 者 攻 个 部 门 的 核心 苋 搜 

力 ， 数 据 被 视 为 私有 的 资源 或 者 资产 ， 为 少数 企业 所 垄断 ， 资 产 价 值 难 
以 肥 挥 ， 这 不 仅 浪 费 了 数据 资源 ， 而 且 阻 碍 了 商业 、 社 会 治理 和 服务 民 
生 等 领域 的 创新 。 第 四 ， 源 上 自 事 务 流 。 由 于 条 数据 被 视 为 私有 的 ， 它 与 
企业 的 营销 、 生 产 等 商业 活动 紧密 关联 ， 企 业 或 者 组 织 更 加 重视 采集 生 
产 经 营 活动 中 的 事务 流 数据 ， 比 如 产品 、 客 户 、 销 售 额 等 数据 ， 往 往 久 
视 了 与 人 关联 的 行为 数据 、 人 文 数据 和 社会 活动 数据 。 条 数据 制约 了 数 
据 价 值 的 最 大 化 ， 阻 碍 了 数据 资源 的 共享 、 开 放 及 其 价值 发 挥 。 基 于 条 
数据 的 预测 分 析 ， 犹 如 “ 言 人 摸 象 ?， 容 易 以 偶 概 全 ， 出 现 重 大 侦 产 。 


《 块 数据 》 基 于 条 数据 提出 了 “ 块 数据 ”这 个 新 名 词 ， 块 数据 是 一 个 
物理 空间 或 行政 区 域 形成 的 涉及 人 、 事 、 物 的 各 类 数据 的 总 和 。 块 数据 
有 别 于 条 数据 的 最 大 特征 是 具有 共享 性 和 可 交易 性 ， 打 破 了 各 个 行业 、 
部 门 和 领域 之 间 的 障碍 。《 块 数据 2.0》 对 块 数据 的 定义 进行 了 进一步 
深化 ， 认 为 块 数 据 是 具有 高 度 关联 性 的 各 类 数据 在 特定 平台 上 的 持续 聚 
合 。《 块 数据 3.0》 从 秩序 互联 网 和 主权 区 块 链 的 角度 对 块 数据 理论 进 
行 深化 研究 ， 探 讨 了 块 数据 的 技术 基础 和 法 律 规制 问题 ， 为 建立 新 型 网 
络 秩序 提供 了 一 种 可 能 。 


块 数据 的 数据 观 是 “开放 、 共 享 、 连 接 ”。 块 数据 就 像 一 块 计算 机 的 
主板 ， 它 建立 起 了 一 个 开放 、 共 享 、 连 接 的 数据 基地 ， 而 各 个 行业 和 部 
门 的 条 数据 就 像 一 个 个 可 插 拔 的 板 卡 ， 它 们 只 有 融合 和 集成 到 主板 上 ， 
才能 发挥 数据 资产 真正 的 功效 。 块 数据 具有 5 个 典型 特征 。 


第 一 ， 高 度 关 联 性 。 数 据 的 关联 度 越 高 ， 信 息 量 越 大 ， 价 值 也 束 越 
大 。 数 据 主 体 间 的 关联 关系 相对 清晰 ， 相 互 之 间 的 关联 性 更 强 ， 世 界 将 


变 得 更 加 透明 ， 人 类 对 世界 的 认 知 水 平和 洞察 力 将 大 幅 提升 ， 认 识 世 界 
和 改造 世界 的 能 力也 将 上 升 到 一 个 新 的 层次 。 


第 二 ， 立 体 性 。 从 物理 上 看 ， 由 “条 ”到 “* 块 "本身 就 是 一 个 维度 增加 
的 过 程 ， 这 实际 上 束 富 意 帮 数据 结构 的 变化 。 立 体 性 表现 在 数据 来 源 更 
广泛 、 数 据 模 式 更 多 元 、 数 据 主体 更 具 时 空 性 。 首 先 ， 块 数据 的 数据 不 
仅 来 源 于 传统 的 政府 部 门 、 商 贸 物 流 、 金 融 保 险 、 工 业 企业 ， 而 且 来 源 
于 社交 网 络 、 影 视 娱 乐 、 设 备 传感器 。 其 次 ， 块 数据 的 数据 模式 不 仅 包 
括 传 统 的 二 维 数据 表 、 文 字 文 档 格 式 的 结构 化 数据 ， 而 且 包 括 互联 网 上 
的 链接 、 微 信息 、 普 频 、 视 频 、 图 片 等 不 同 格式 的 非 结构 化 数据 。 最 
后 ， 块 数据 的 数据 主体 更 具 时 空 性 ， 其 数据 内 容 更 丰富 ， 既 包括 该 区 域 
内 企业 、 人 口 、 车 辆 等 基本 相对 静态 数据 ， 叉 包括 人 员 活 动 路线 、 消 费 
记录 、 生 活 习 性 等 动态 数据 ， 两 者 结合 就 形成 了 一 个 立体 化 实时 更 新 的 
数据 网 络 。 


第 三 ， 活 性 。 数 据 的 活性 是 衡量 数据 价值 尺度 的 重要 指标 ， 这 里 的 
活性 束 是 指数 据 的 更 新 率 和 鲜 活 度 ， 与 条 数据 更 新 更 多 发 生 在 增 量 上 有 
所 不 同 ， 块 数据 的 更 新 既 发 生 在 增 量 上 ， 又 发 生 在 存量 上 ， 同 时 数据 更 
新 频率 更 快 、 鲜 活 程度 更 高 ， 数 据 变化 的 啊 应 速度 更 快 。 


第 四 ， 主 体 性 。 数 据 来 源 于 社会 又 作用 于 社会 。 无 论 是 可 以 数字 化 
的 数据 还 是 不 可 数字 化 的 数据 ， 其 比较 、 分 析 和 归纳 其 实 反映 的 都 是 人 
在 符 写 层面 上 的 一 种 互动 。 从 社会 学 角度 看 ， 所 有 数据 说 到 的 都 是 有 关 
人 的 符 写 。 不 同 于 条 数据 源 自 企业 的 产品 或 服务 ， 块 数据 始终 围绕 人 或 
物 的 活动 产生 ， 始 终 以 人 为 原点 ， 始 终 关 注 人 在 数据 中 的 主体 价值 。 


第 五 ， 开 放 性 。 块 数据 为 不 同 企业 、 部 门 、 个 人 之 间 建 立交 换 与 共 
孚 的 桥 染 和 机 制 提 供 了 基础 。 通 过 开放 数据 ， 数 据 的 价值 将 通过 在 各 个 
领域 的 融合 应 用 实现 最 大 限度 的 释放 。 


块 数据 凭借 对 条 数据 的 关联 融合 ， 通 过 不 同 种 类 、 领 域 数 据 的 目 由 


流动 和 开放 共享 ， 单 新 了 我 们 的 数据 观 、 世 界 观 、 价 值 观 和 方法 论 。 


(三 ) 数据 学 与 数据 科学 


数据 学 是 关于 数据 的 科学 ， 是 从 数据 中 发 现 与 提取 知识 的 过 程 ， 是 
研究 探索 大 数据 领域 奥秘 的 理论 、 方 法 和 思想 ， 并 诉 发 科学 研究 理论 和 
方法 的 转化 与 发 跃 。 数 据 学 研究 的 对 象 是 数据 ， 而 不 是 信息 ， 也 不 是 知 
识 。 数 据 科学 通过 研究 数据 获取 对 自然 、 生 命 和 行为 的 认识 ， 进 而 获得 
言 轧 和 知识 。 数 据 科 学 主要 以 统计 学 、 机 器 学 习 、 数 据 可 视 化 及 东 一 领 
域 知识 为 理论 基础 ， 主 要 研究 内 容 包括 数据 科学 基础 理论 、 数 据 预 处 
理 、 数 据 计 算 和 数据 管理 。 三 


在 小 数据 时 代 ， 因 受 采 集 数据 、 搜 索 信 息 手 段 的 限制 ， 一 般 人 都 处 
于 数据 或 信息 量 的 缺少 状态 (“营养 不 良 ”) ， 眼 界 受 限 ， 知 识 面 和 思维 
的 开阔 度 不 足 ， 难 免 存在 “ 井 底 之 蛙 ? 和 “ 鼠 目 寸 光 ? 的 局 限 。 到 了 大 数据 
时 代 ， 数 据 和 信息 短缺 的 状况 得 到 了 根本 性 的 改观 ， 电 子 或 网 络 信息 的 
可 便捷 获取 使 人 类 生活 环境 变 为 数据 的 海洋 ， 过 去 的 数据 贫乏 转变 成 了 
今天 的 数据 爆炸 ， 数 据 像 潮水 一 样 不 停 地 同人 们 涌 来 ， 使 人 应 接 不 暇 。 
面 对 海 量 的 数据 ， 人 们 第 第 无 从 判别 什么 数据 才 是 自己 真正 需要 的 ， 或 
者 说 有 用 而 真正 需要 的 数据 在 此 时 变 得 更 难 寻 找 。 一 个 典型 的 事例 就 是 
比尔 : 凋 次 为 了 在 每 天 收 到 的 400 多 万 封 电子 邮件 中 找 出 十 多 封 可 能 有 价 
值 的 邮件 ， 不 得 不 组 织 一 个 专门 的 团队 处 理 这 些 邮 件 。 从 事 学 术 研 究 的 
学 者 也 面临 如 何在 数不胜数 而 又 良 劳 不 齐 的 电子 信息 资源 中 选取 有 效 资 
料 的 难题 。 即 使 是 普通 人 ， 也 可 能 整 天 都 在 “ 读 网 *， 泡 在 数据 和 信息 的 
海洋 里 ， 却 感觉 一 无 所 获 。 此 时 人 们 吏 如 同 处 在 “绝对 的 光明 ?之 中 ， 同 
样 什么 也 看 不 见 。" 太 


由 此 产生 的 悖 论 就 是 : 数据 到 底 是 越 多 越 好 ， 还 是 越 少 越 好 ? 当 数 
据 爆 炸 式 增长 的 时 候 ， 人 很 可 能 会 逐渐 尼 失 判断 能 力 ， 最 终 沦 为 “数据 


潜流 ”的 奴隶 , “数据 和 信息 丰富 ， 但 是 思想 贫乏 ”的 奇特 现象 开始 出 
现 。 数 据 悖 论 是 人 类 的 认识 活动 面临 的 新 挑战 、 新 困境 甚至 新 危机 ， 同 
时 也 是 我 们 的 认识 获得 新 发 展 甚至 新 突破 的 新 机 遇 。 超 数据 时 代 将 是 一 
个 更 加 开放 、 更 加 复杂 的 巨 系统 ， 如 何 从 浩如烟海 的 数据 中 提炼 出 有 用 
的 信息 ， 对 不 确定 性 和 不 可 预知 性 实现 更 加 精准 的 预测 ， 是 或 待 突破 的 
关键 性 问题 。 


在 新 时 代 、 新 时 期 、 新 问题 面前 ， 对 数据 科学 研究 的 思路 与 方法 也 
应 当做 出 相应 的 转变 。 数 据 科学 面临 的 首要 问题 是 存储 多 少数 据 才 够 
用 。 原 则 上 ， 在 数据 稀缺 的 时 代 古 数据 越 多 越 好 ， 在 数据 爆炸 的 时 代 则 
征 数 据 越 精 越 好 、 越 有 序 越 好 。 在 脑 科 学 研究 专家 和 企业 孵化 专家 杰 弗 
里 :斯 带 伯 看 来 :“ 解 决 问题 的 最 好 方法 是 具有 大 量 准确 的 信息 和 精确 的 
计算 。 但 是 ， 恰 恰 是 根据 有 限 信息 的 预测 ， 让 我 们 的 大 脑 发 挥 思考 的 作 
用 。” 他 引用 德国 管理 大 师 歌 德 : 吉 仁 泽 的 话说 :“ 当 一 个 人 不 得 不 预测 
未 来 〈 或 者 一 些 现 在 未 知 的 事情 ) 的 时 候 ， 当 未 来 很 难 预见 的 时 候 ， 当 
一 个 人 没有 太 多 信息 的 时 候 ， 基 于 一 条 适当 理由 的 直觉 会 是 很 准确 
的 。” 适 当 的 理由 可 以 使 我 们 具有 调 察 力 ， 所 以 最 有 利于 做 出 判断 和 决 
朱 的 情况 是 “有 刚刚 够 用 的 信息 ， 不 多 也 不 少 ”。 有 研究 表明 ， 如 果 减 少 
信息 量 或 适当 拉 开 信息 呈现 的 间隔 ， 人 们 的 决定 就 能 够 改变 ， 在 一 定 情 
况 下 甚至 信息 越 少 ， 人 们 越 容易 得 出 正确 的 答案 。 在 数据 和 信息 爆炸 的 
今天 ， 数 据 和 信息 过 多 ， 反 而 使 得 人 们 难以 做 出 正确 的 判断 和 决 集 。 


其 次 是 不 断 扩 大 的 数据 规模 市 来 的 存储 问题 及 数据 资源 共享 市 来 的 
管理 问题 。 传 统 数 据 库 的 规模 不 足 ， 而 且 原 有 的 检索 与 归档 方法 对 知识 
发 现 是 不 合适 的 ， 数 据 科 学 关心 的 是 ， 要 提供 对 海量 数据 的 快速 存储 、 
调用 ， 对 用 户 碍 询 不 规范 的 文 撑 ， 进 而 不 断 优化 从 浩瀚 数据 中 发 掘 规律 
的 能 力 。2012 年 美国 国家 六 症 研究 所 向 科研 界 提 出 面向 21 世 纪 的 冶 症 及 
演 行 病 学 领域 的 8 项 建议 ， 其 中 束 包 括 整合 数据 科学 在 流行 病 学 方面 的 
应 用 ， 强 调 要 制定 系统 的 方法 来 管理 、 分 析 、 显 示 及 解释 大 量 复杂 的 数 
据 集 ， 并 文 持 可 扩展 和 可 持续 的 生物 信息 学 数据 存储 。 


最 后 ， 由 科学 研究 、 商 业 交 易 、 社 群 交流 和 集成 处 理 等 产生 的 多 样 
化 的 大 数据 ， 增 加 了 数据 集 的 复杂 性 ， 由 此 向 数据 科学 提出 了 系统 设 
计 、 数 据 深度 处 理 等 方面 的 挑战 。 数 据 采 集 、 存 储 、 管 理 与 深度 处 理 的 
最 终 目 的 是 挖掘 数据 的 价值 ， 这 也 是 数据 科学 兴起 与 发 展 的 根本 。 将 碎 
片 化 、 多 维 异 构 的 海量 数据 融合 成 用 尸 所 需 的 全 局 性 或 者 创新 性 的 知 
识 ， 是 数据 科学 发 展 的 必然 选择 。 三 


基于 块 数据 “开放 、 共 至 、 连 接 ” 的 数据 观 、 复 共性 的 系统 思维 ， 上 
及 人 工 智 能 的 大 时 代 背 景 ， ee， 
开辟 了 一 个 全 新 的 视角 和 研究 方 向 ， 激 活 数据 学 正 是 在 这 样 的 背景 下 
生 并 得 到 不 断 的 深化 研究 的 。 
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第 二 下 
激活 数据 学 的 提出 


(一 ) 激活 数据 学 的 由 来 


激活 数据 学 是 一 种 新 的 数据 科学 理论 与 方法 ， 其 目的 在 于 解决 超大 
规模 数据 的 获取 、 筛 选 、 融 合 、 计 算 和 分 析 问 题 。 油 活 数据 学 的 提出 ， 
为 超 数 据 时 代 日 区 凸显 的 数据 悖 论 问题 提供 了 科学 的 和 现实 可 行 的 途径 
与 方法 。 激 活 数 据 学 以 超大 规模 数据 为 研究 对 象 ， 以 超大 规模 数据 在 块 
上 集聚 为 基础 ， 以 实现 超大 规模 数据 的 有 效 存储 和 精准 利用 为 研究 目 
标 ， 以 “协同 感知 、 融 合 重 构 、 深 度 学 习 、 数 据 精 练 、 群 智 认 知 和 乔 能 
服务 ?为 原则 ， 创 建 了 一 和 僚 基 于 复杂 理论 的 以 数据 搜索 、 关 联 融合 、 目 
激活 、 热 点 减 量 化 、 群 体 知 能 为 核心 的 数据 处 理 框架 。 激 活 数据 学 的 5 
个 阶段 在 绪论 中 已 有 详细 的 介绍 。 


激活 数据 学 的 研究 聚焦 于 5 个 问题 : 一 是 如 何 从 海量 数据 中 搜索 、 
精准 识别 出 与 研究 主体 相关 的 全 面 、 立 体 的 数据 ， 二 是 如 何 将 海量 无 
序 、 人 碎片 化 的 数据 整合 成 有 序 、 融 合 化 的 数据 ， 三 是 如 何 实现 海量 数据 
的 高 性 能 智能 计算 ， 将 “无 意义 ”的 数据 转换 为 “有 用 ”的 知识 ;四 是 如 何 
实现 海量 数据 的 精练 和 有 效 存 储 ; 五 是 如 何 基 于 海量 数据 实现 对 复 杀 问 
题 的 客观 、 精 准 、 稳 定 的 决策 。 


油 活 数据 学 是 块 数据 理论 的 升级 版 ， 它 以 英 数 据 为 基础 数据 资源 
屋 ， 以 “数据 共享 、 互 联 互 通 、 业 务 协 同 ” 为 原则 ， 汇 聚 海量 跨行 业 、 跨 
领域 的 数据 并 进行 融合 重 构 ， 构 建 自由 流动 、 立 体 化 的 数据 存储 体系 ， 
并 以 深度 神经 网 络 和 人 机 交互 接口 为 决 岳 分 析 层 ,模仿 人 脑 思 考 方式 和 


群体 智能 ， 进 行 数据 挖掘 、 预 测 分 析 与 智能 决策 ， 提 升 决 策 与 分 析 的 智 
能 化 和 准确 率 。 


二) 激活 数据 学 的 理论 框 以 


德国 著名 物理 学 家 普天 殉 认 为 :“ 科 学 是 内 在 的 整体 ， 它 被 分 解 为 
单独 的 整体 不 是 取决 于 事物 本 里， 而 是 取决 于 人 类 认识 能 力 的 局 限 性 。 
实际 上 存在 着 从 物理 到 化 学 ， 通 过 生物 学 和 人 类 学 到 社会 学 的 连续 的 链 
条 ， 这 是 任何 一 处 都 不 能 被 打 断 的 链条 。” 目 然 界 本 是 一 个 具有 多 样 性 
的 有 机 整体 ， 人 们 为 了 研 客 方 便 ， 把 它 的 某 一 方面 从 有 机 整体 中 割裂 出 
来 作为 目 己 的 研究 对 象 ， 忽 略 其 环境 局 限 性 。 科 学 的 研 守 方法 是 系统 性 
的 研究 方法 ， 激 活 数据 学 是 集合 多 领域 、 路 学 科 的 系统 科学 。 激 活 数据 
学 的 理论 框架 如 图 2-1 所 示 。 


人 脑 科学 


| 


群体 智能 | 全 aa| 激 活 数据 学 理论 框架 |eee 史 | 社会 理论 


| 


复杂 适应 系统 
图 2-1 激活 数据 学 的 理论 框架 


人 脑 科学 。 大 数据 技术 的 目的 是 进行 海量 数据 的 收集 、 存 储 和 处 
理 ， 并 在 此 基础 上 进行 规律 判断 和 趋势 预测 。 当 前 ， 大 数据 的 存储 与 分 
析 面 临 诸多 困难 ， 如 海量 数据 的 安全 廉价 存储 、 快 速 访问 、 蜗 效 处 理 
等 ， 这 些 都 要 求 研究 者 探寻 新 的 数据 处 理 模式 。 人 类 大 脑 是 目前 已 知 的 


言 恩 密 上 度 最 大 、 结 构 化 程度 最 高 且 目 我 组 织 最 完整 的 东西 。 如 此 强大 的 
大 脑 运 行 时 的 功率 仅 为 20 所 ， 一 人 台 性 能 同样 强大 的 计算 机 则 需要 2 400 
万 瓦 的 功率 才能 启动 。 研 究 大 脑 的 主要 目的 是 实现 机 器 对 人 脑 的 模拟 ， 
使 机 器 像 人 一 样 高 度 乔 能 ， 具 备 高 效率 、 低 能 耗 的 信息 处 理 能 力 。 脑 科 
学 为 数据 科学 提供 了 新 的 方法 论 ， 催 生 痢 对 深度 神经 元 网 络 、 脉 冲 神经 
网 络 、 类 脑 计 算 尾 片 等 新 型 高 性 能 计算 方法 和 平台 的 研究 。 人 工 智 能 和 
人 工 神经 元 网 络 领域 就 是 对 人 脑 智能 模拟 的 一 种 答 试 。 人 工 神经 元 网 络 
即 通过 建立 网 络 连 接 模拟 的 人 脑 神经 元 网 络 ， 实 现 某 些 人 脑 的 智能 和 计 
算 能 力 。 


在 思考 机 器 智能 的 时 候 ， 我 们 可 以 将 人 类 智能 作为 参照 ， 甚 至 作为 
最 重要 的 参照 ， 但 要 意识 到 ， 模 拟 智能 的 目的 并 不 是 完全 实现 人 类 认 知 
行为 能 力 的 完全 复制 ， 而 是 超越 人 类 智能 ， 如 在 思考 速度 、 记 忆 容 量 、 
感知 能 力 、 系 统 复 杂 度 、 可 复制 性 等 诸多 方面 实现 对 人 类 智能 的 超越 。 
神经 元 是 以 每 秒 1 000 次 的 速度 工作 的 ， 而 硅 基 必 片 则 以 每 秒 100 亿 次 的 
速度 工作 ， 它 们 的 差别 是 1 ”000 万 倍 ， 这 意味 着 理论 上 如 宁 心 片 具 备 了 
思考 能 力 ， 它 的 思考 速度 是 人 类 的 1 ”000 万 倍 ， 这 将 给 我 们 的 生活 带 来 
很 多 不 可 思议 的 变化 。 所 以 ， 类 脑 计 算 的 目标 不 会 停留 在 复 现 大 脑 智能 
计算 能 力 ， 而 应 该 是 实现 按照 大 脑 方式 进行 计算 、 诺 多 方面 性 能 又 优 于 
人 脑 的 计算 体系 。 


以 人 脑 的 工作 原理 指导 未 来 计算 技术 的 发 展 ， 让 计算 机 模拟 人 脑 的 
运行 机 制 ， 超 级 计算 机 及 其 他 大 功率 设备 的 能 耗 问 题 将 有 望 在 未 来 得 到 
解决 。 脑 科学 与 高 性 能 计算 技术 的 结合 将 成 为 探索 数据 处 理 高 效能 的 有 
效 途径 。 超 级 计算 机 的 运算 速度 能 够 达到 每 秒 干 万 亿 次 ， 但 是 其 智能 水 
平 极为 低下 ， 知 能 将 计算 机 的 高 性 能 与 人 的 高 智能 相 结合 ， 那 么 在 大 数 
据 时 代 借 助 这 样 的 “机 器 脑 ” 有 望 大 幅 提 升 数据 挖 掘 的 效率 。 三 


群体 智能 。 和 群体 是 人 类 应 对 目 然 和 社会 挑战 、 推 动 社会 发 展 大 
唯一 的 制胜 选择 ， 而 群体 智能 则 发 挥 看 至 关 重 要 的 作用 。 群 体 智 


体 所 具有 的 优 于 个 体 或 个 体 总 和 的 智 意 与 能 力 ， 是 “简单 智能 的 主体 通 
过 合作 表现 出 复杂 智能 行为 的 特性 ”， 是 受 目 然 界 生物 群 体 历 表现 出 的 
智能 现象 的 月 发 而 提出 的 一 种 人 工 乔 能 模式 。 和 群体 智能 表现 在 其 获取 信 
恩 的 能 力 ， 以 及 在 解决 问题 方面 的 优越 性 、 稳 定性 和 高 效率 上 。 该 智能 
模式 需要 以 相当 数目 的 智能 体 来 实现 对 茶 关 问题 的 求解 功能 。 = 


基于 互联 网 的 群体 智能 理论 和 方法 是 新 一 代 人 工 智 能 的 核心 研究 领 
域 之 一 ， 对 人 工 智 能 的 其 他 研 完 领域 具有 基础 性 和 文 撑 性 的 作用 。 钱 学 
森 在 20 世 纪 90 年 代 曾 提出 综合 集成 研讨 厅 体 系 ， 强 调 专 家 群体 以 人 机 结 
合 的 方式 进行 协同 研讨 ， 共 同 研究 复 森 巨 系 统 的 挑战 性 问题 。《 新 一 代 
人 工 智 能 发 展 规划 》 明 确 提出 群体 智能 的 研究 方向 ， 实 质 上 正 是 综合 
成 研讨 厅 在 人 工 智 能 新 时 代 的 拓展 和 深化 。 它 的 研究 内 涵 不 单 是 关注 精 
英 专 家 团体 ， 而 是 通过 互联 网 组 织 结构 和 大 数据 驱动 的 人 工 知 能 系统 吸 
引 、 汇 聚 和 管理 大 规模 参与 者 ， 以 竞争 和 合作 等 多 种 目 主 协同 方式 共同 
应 对 挑战 性 任务 ， 特 别 是 开放 环境 中 的 复杂 系统 决策 任务 ， 涌 现 出 来 的 
超越 个 体 智能 的 智能 形态 。 


在 互联 网 环境 中 ， 海 量 的 人 类 智能 与 机 器 智能 相互 赋 能 增 效 ， 形 成 
人 机 物 融 合 的 群体 智能 空间 ， 以 充分 展现 群体 智能 。 其 本 质 上 是 互联 网 
科技 创新 生态 系统 的 智力 内 核 ， 将 辐射 包括 从 技术 研 友 到 商业 运营 整个 
创新 过 程 的 所 有 组 织 及 组 织 间 关系 网 络 。 和 群体 智能 的 研究 不 仅 能 推动 人 
工 智能 的 理论 技术 创新 ， 而 且 能 对 整个 信息 社会 的 应 用 创新 、 体 制 创 
新 、 管 理 创 新 、 商 业 创新 等 提供 核心 驱动 力 。 


复杂 适应 系统 。 决 策 是 一 个 极其 复杂 的 命题 ， 特 别 是 随 着 经 济 的 发 
展 、 科 学 技术 的 进步 、 全 球 一 体 化 进程 的 加 快 和 超 数据 时 代 的 来 临 ， 各 
行 各 业 面 临 的 是 一 个 日 蔓 复 全 和 不 断 变 化 的 环境 ， 决 策 问题 变 得 越 来 越 
复 杀 。 在 复杂 环境 中 决策 是 涉及 众多 因素 的 复杂 系统 ， 具 有 巨 系 统 性 、 
开放 性 、 不 确定 性 等 特性 ， 传 统 的 决策 分 析 方 法 往往 无 能 为 力 。 复 杂 决 
朱 环 境 在 上 自然界、 人 类 社会 大 量 存在 ， 因 而 研究 复杂 环境 中 的 决 集 尤为 


重要 。 


复杂 系统 理论 是 系统 科学 的 一 个 前 沿 方向 ， 它 是 系统 科学 的 延续 和 
发 展 。 复 杂 性 科学 被 称 为 “21 世 纪 的 科学 ”， 它 的 主要 目的 束 是 揭示 复 林 
系统 的 一 些 难 以 用 现 有 科学 方法 解释 的 动力 学 行为 。 我 们 把 面 对 大 型 复 
杂 问 题 的 决 朱文 持 系 统 看 作 复 淋 适 应 系统 ， 它 由 大 量 相对 独 冻 和 平等 的 
目 适 应 决 集 主体 组 成 。 大 量 决 策 主体 的 决 朱 结果 构成 了 主体 的 决 集 环 
境 ， 并 对 主体 诀 策 产生 影响 。 目 适应 就 是 指 决 策 主 体能 够 根据 环境 采用 
不 同 的 集 略 。 复 杂 适 应 系统 理论 及 用“ 目 适 应 主体 ”这 个 概念 ， 是 为 了 强 
调 它 的 主动 性 ， 强 调 它 具 有 自己 的 目标 、 内 部 结构 和 生存 动力 。 在 复杂 
适应 系统 中 ， 所 有 个 体 都 处 于 一 个 共同 的 大 环境 中 ， 但 各 自 叉 根据 上 自己 
周围 的 局 部 小 环境 并 行 地 独立 进行 着 自 适 应 学 习 和 演化 ， 个 体 的 这 种 目 
适应 和 学 习 能 力 是 智能 的 一 种 表现 形式 ， 所 以 也 有 人 把 这 种 个 体 称 为 智 
能 体 。 在 环境 中 演化 着 的 个 体 ， 为 了 生存 的 需要 ， 不 断 调整 自己 的 行 
为 、 修 改 自身 的 规则 ， 以 求 更 好 地 适应 环境 选择 的 需要 ， 大 量 自 适 应 个 
体 在 环境 中 的 各 种 行为 又 反 过 来 不 断 地 影响 和 改变 看 环境 ， 结 合 坏 境 目 
身 的 变化 规律 ， 动 态 变 化 的 环境 则 以 一 种 “约束 ”的 形式 对 个 体 的 行为 产 
生 约束 和 影响 ， 如 此 反复 ,个 体 和 环境 就 处 于 一 种 永 不 停止 的 相互 作 
用 、 相 互 影响 、 相 互 进化 过 程 之 中 。 


社会 理论 。 社 会 学 是 一 门 系统 研究 人 类 社会 的 学 问 。 日 常 社会 生 
活 ， 如 我 们 的 思想 、 行 为 、 情 感 、 决 策 、 互 动 等 ， 是 社会 力量 与 个 人 性 
格 特点 之 间 复 杂 的 相互 作用 的 产物 。 要 想 解 释 人 们 为 什么 会 是 他 们 所 呈 
现 的 样子 ， 为 什么 会 相信 他 们 所 相信 的 ， 或 者 为 什么 会 做 他 们 所 做 的 
事 ， 就 必须 理解 他 们 生活 于 其 中 的 人 际 网 络 、 历 史 环 境 、 文 化 环境 、 技 
术 环 境 、 组 织 环境 和 全 球 环境 ， 不 论 是 想 了 解 个 人 还 是 社会 ， 我 们 都 必 
须 同 时 理解 这 些 要 素 。 


互联 网 只 是 现实 社会 的 延伸 ， 大 数据 背后 是 社会 大 趋势 ， 在 现实 生 
活 中 很 多 问题 具有 很 强 的 社会 性 ， 只 有 把 大 数据 和 社会 学 结合 起 来 ， 才 


能 把 人 群 刻画 完整 ， 才 能 准确 地 洞 肾 趋势 。 现 在 获取 数据 的 渠道 足够 
多 ,但 是 如 何 用 社会 学 变量 从 海量 数据 中 过 滤 出 有 价值 的 信息 ， 从 而 精 
确 地 预测 行为 和 趋势 ， 这 是 需要 突破 的 。 


在 大 数据 和 社会 学 的 结合 上 ， 已 经 有 一 些 成 功 的 实用 案例 。 比 如 堪 
称 2016 年 最 大 的 黑 天 鹅 事 件 一 一 特 表 普 在 美国 总 统 苑 选中 获胜 ， 背 后 的 
功臣 就 是 一 家 名 为 Cambridge ”Analytica( 剑 桥 分 析 〉 的 大 数据 分 析 公 
司 。 这 家 公司 按照 开放 性 、 尽 责 性 、 外 向 性 、 随 和 性 和 情绪 稳定 性 五 大 
变量 划分 出 32 种 人 格 ， 每 种 人 格 都 有 不 同 的 社会 价值 取向 、 不 同 的 风险 
承担 能 力 、 不 同 的 政治 价值 观 。 通 过 有 意识 地 触及 并 问 其 中 一 些 人 推送 
竞选 信息 ， 让 他 们 在 不 知 不 觉 中 认同 特 明 普 ， 最 终 ， 这 些 关 键 的 少数 人 
打破 了 原先 的 平衡 , “改变 "了 大 选 结 


(三 ) 激活 数据 学 的 时 代价 值 


当前 ， 人 工 智 能 的 发 展 超 乎 想象 ， 正 深刻 改变 着 人 们 的 生活 ， 改 变 
独 整 个 世界 。 人 工 重 能 是 一 种 引领 诸多 领域 发 生 题 履 性 变 音 的 前 治 拉 
术 ， 合 理 有 效 地 利用 人 工 智能 ， 意 味 着 能 获得 局 水 平价 值 创造 和 苋 争 优 
势 。 人 工 智能 并 不 是 一 个 独立 、 封 闭 和 上 自我 循环 发 展 的 智能 科学 体系 ， 
而 是 通过 与 其 他 科学 领域 的 交叉 结合 融入 人 类 社会 发 展 的 各 个 方面 的 。 
云 计 算 、 大 数据 、 可 军 戴 设备 、 乔 能 机 器 人 等 领域 的 重大 需求 不 断 推动 
人 工 智能 理论 与 技术 的 发 展 。 激 活 数据 学 的 提出 ， 对 人 工 符 能 的 及 展 与 
应 用 具有 重要 意义 。 


激活 数据 学 推动 人 工 智能 突破 “计算 力 ” 瓶 颈 。 庞 大 的 数据 中 心 及 
心 片 技术 为 人 工 智 能 提供 基础 计算 环境 ，2012 年 6 月 “谷歌 大 脑 ” 运 用 深 
度 学 习 的 研究 成 果 ， 使 用 1 000 台 电脑 创造 出 包含 10 亿 个 连接 的 “神经 网 
络 ”， 使 机 器 系统 学 会 目 动 识别 猫 ， 成 为 国际 深度 学 习 领 域 广为人知 的 
和 案例。 谷歌 的 神经 网 络 早 前 有 报道 称 已 经 具备 了 112 亿 个 参数 ， 也 就 是 


说 将 有 数 万 台 服 务 器 来 支撑。 就 在 2015 年 3 月 的 人 机 大 战 中 ， 和 谷歌 也 调 
用 了 上 和 干 台 服 务 器 资源 。 可 想 而 知 ， 计 算 平台 这 一 门 榄 ， 将 会 使 得 人 工 
智能 变 成 巨头 们 的 游戏 。 激 活 数据 学 对 类 脑 计算 领域 的 研究 ， 将 推动 遍 
效率 、 低 能 耗 的 高 性 能 计算 技术 的 发 展 ， 高 性 能 计算 技术 将 使 人 工 智能 
的 推广 与 应 用 迎 来 新 一 轮 的 春天 。 


激活 数据 学 推动 人 工 智 能 突破 “数据 ”瓶颈 。 虽 然 人 工 智能 战略 转 
棋 蜗 手 在 不 同 版 本 的 人 机 大 战 中 获得 了 不 容 忽 视 的 成 就 ， 但 这 更 多 的 是 
一 场 科 技 秀 ， 以 此 癌 外 界 展 示 上 自身 人 工 智能 技术 实力 。 阿 尔 法 狗 
(AlphaGo) 让 深思 《〈DeepMind) 公司 红 表 全 球 ， 但 在 推动 人 工 智能 技 
术 实 际 应 用 中 ， 目 前 还 没有 找到 其 他 成 熟 的 应 用 项 目 。 早 前 有 披露 阿尔 
法 狗 的 缔造 者 深思 欲 进 入 医疗 领域 ， 改 善 医 疗 ， 但 缺乏 数据 、 进 展 缓慢 
是 不 争 的 事实 。 据 了 解 ， 深 思 曾 与 NHS (英国 国家 医疗 服务 体系 ) 达成 
数据 授权 合作 ， 以 此 获得 了 NHS 约 160 万 名 患者 的 数据 ， 利 用 该 数据 开 
发 一 个 通用 算法 ， 则 在 帮助 医生 和 护士 诊断 急性 肾脏 损伤 病例 。 当 然 ， 
谷歌 、Facebook〔 脸 谱 网 ) 及 国内 的 BAT 等 互联 网 巨头 ， 其 数据 量 拥有 
绝对 的 优势 ， 利 用 其 人 工 智能 技术 改善 了 现 有 众多 服务 。 不 可 否认 ， 正 
是 由 于 他 们 在 人 工 智 能 领域 的 创新 ， 各 项 互联 网 服务 和 产品 更 加 出 色 ， 
但 在 提升 和 改善 自身 业务 层面 以 外 进展 缓慢 ， 其 根本 原因 在 于 目前 各 行 
各 业 的 数据 仍然 处 于 条 数据 领域 ， 数 据 的 不 流通 、 不 开放 制约 了 技术 的 
发 展 和 应 用 。 汲 活 数据 学 基于 块 数据 的 数据 观 ， 为 数据 共享 开放 提供 了 
新 的 现实 路 径 ， 将 引领 人 工 智 能 理论 指导 辐 更 广泛 的 领域 释放 价值 。 


激活 数据 学 推动 人 工 智能 迈 向 人 机 一 体 的 “强人 工 智 能 ”。 人 类 和 群 
体 、 大 数据 、 物 联网 已 经 实现 广泛 和 深度 的 互联 ， 使 得 人 类 与 机 器 群体 
智能 在 万 物 互 联 的 信息 环境 中 发 挥 的 作用 越 来 越 重 要 ， 由 此 深刻 地 改变 
了 人 工 智 能 领域 , “互联 网 一 人 一 机 一体 化 的 群体 智能 已 成 为 解决 科学 
难题 的 新 途径 。 人 工 智能 到 入 了 新 的 发 展 阶段 ， 新 的 研究 方 加 和 新 范式 
己 经 逐步 显现 出 来 ， 从 强调 专家 的 个 体 乔 能 模拟 走 癌 群体 智能 ， 知 能 的 
构造 方法 从 逻辑 和 单调 走 加 开放 和 涌现 ， 乔 能 系统 开发 方法 从 封闭 和 计 


划 走 向 开放 和 竞争 。 三 我 们 必须 依托 良性 的 互联 网 科技 创新 生态 环境 实 
现 路 时 空地 汇聚 群体 智能 ， 高 效率 地 重组 群体 智能 ， 更 广泛 而 精准 地 释 
放 群 体 智能 。 激 活 数 据 学 是 一 种 群体 智能 的 结构 理论 与 组 织 方法 ， 通 过 
研究 基于 群体 与 环境 数据 分 析 的 主动 感知 ， 突 破 群 体 智能 数据 关联 融合 
汇聚 为 块 数据 技术 ， 并 研究 在 开放 动态 环境 中 群体 与 机 器 的 协同 强化 、 
回环 演进 的 问题 ， 构 建 形成 人 机 协同 、 交 互 驱动 的 演进 式 群 体 智能 决 集 
系统 ， 实 现 开 放 环 境 中 复杂 问题 求解 和 智能 决策 ， 文 撑 形成 群体 智 

能 “数据 一 知识 一 决 集 目 动 化 ”的 完整 技术 链条 ， 对 于 解决 群体 智能 组 织 
的 有 效 性 、 群 体 智能 涌现 的 不 确定 性 、 群 体 智 能 汇聚 的 质量 保障 、 群 体 
智能 交互 的 可 计算 性 等 科学 问题 具有 重要 价值 。 
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2148_2166. 
2. 戴 易 ， 周 椅 . 国 外 “群体 智能 ”研究 述评 [J] .图 书 情 报 知 识 ，2014 (2) : 120-127. 
3. 李 未 ， 吴 文 峻 .群体 智能 : 新 一 代 人 工 智能 的 重要 方向 LEB/OL ] . (2017-08- 


03) .http://stdaily.com/index/kejixinwen/2017-08/03/content_564559.shtml. 


和 A 一 十 上 


下 二 人 
激活 数据 学 与 数据 激活 机 理 


所 


(一 ) 数据 搜索 ， 智 能 感知 


蒙 住 一 个 人 的 双眼 ， 他 束 失 去 了 视觉 感知 和 大 约 85% 的 信息 获取 能 
力 ， 因 此 会 在 行动 的 过 程 中 跟 跟 哈哈 、 不 辨 方向 、 屡 屡 失 误 ， 显 示 出 异 
乎 寻常 的 “笨拙 ”"。 由 此 不 难 发 现 ， 一 个 系统 是 否 具有 对 外 界 信息 的 感知 
与 获取 能 力 ， 是 判断 该 系统 智能 与 否 的 关键。 


人 类 之 所 以 比 其 他 生物 聪明 ， 是 因为 人 类 善于 “学 习 ”。 孩 子 在 第 一 
次 站 起 来 直立 行走 、 第 一 次 说 出 一 个 清晰 的 音节 、 第 一 次 拿 起 勺子 吃饭 
的 时 候 ， 都 完成 了 一 次 大 脑 的 洗礼 。 我 们 是 怎样 学 会 这 一 切 的 呢 ? 答案 
很 简单 : 是 在 与 环境 交互 作用 的 过 程 中 ， 在 个 体 大 脑 内 部 形成 的 。 大 脑 
通过 感觉 占 官 接收 信息 ， 在 脑 内 进行 数据 加 工 ， 然 后 输出 信息 ， 产 生 反 
应 ， 大 脑 通 过 一 过 又 一 过 的 重复 积累 ， 形 成 了 个 体 当前 所 有 具备 的 能 力 和 
创造 性 。 大 脑 的 学 习 过 程 包括 以 下 3 个 基本 步骤 或 系统 : 信息 输入 、 模 
式 加 工 、 动 作 输出 。 


从 体内 或 体外 接收 信息 是 学 习 的 第 一 步 。 这 类 信息 是 通过 号 体 的 信 
恩 输 入 系统 传 入 的 。 这 个 信息 输入 系统 由 5 种 基本 感觉 (视觉 、 听 和 觉 、 
咒 觉 、 和 触觉、 味 党 ) 组成， 还 包括 其 他 几 种 日 第 基本 功能 ， 如 前 姓 系 
统 、 本 体感 觉 系统 等 。 实 际 上 ， 人 的 思考 、 推 理 、 记 忆 和 理解 能 力 都 始 
于 并 且 一 开始 惑 完全 依赖 这 个 信息 输入 系统 。 


数据 搜索 是 数据 激活 的 第 一 步 ， 是 激活 数据 学 的 基础 数据 准备 阶 


段 ， 为 机 噩 学 习 准 备 大 量 数据 作为 “燃料 来 源 ? 和 " 助 推 项 *， 突 破 传统 传 
感 需 的 感知 让 区 和 乔 能 局 上限， 透彻 感知 、 精 确 描 述 现实 物理 空间 的 多 模 
态 场景 信息 ， 实 现 复杂 物理 世界 的 数字 化 再 现 。 数 据 搜索 是 解决 数据 数 
量 和 数据 价值 获取 效率 之 间 矛 盾 的 唯一 途径 ， 在 过 去 的 几 年 里 ， 我 们 生 
产 的 数据 占 全 部 人 类 文明 史上 所 有 数据 总 和 的 90%， 每 天 产生 很 多 没有 
价值 的 数据 ， 大 数据 的 难点 在 于 快速 识别 出 对 你 有 价值 的 数据 。 面 对 网 
络 上 浩如烟海 的 数据 ， 激 活 数 据 学 的 数据 搜索 通过 对 数据 的 主动 搜索 和 
目 我 的 深度 学 习 ， 实 现 对 数据 越 来 越 全 面 的 认识 ， 构 建 越 来 越 丰 语 的 数 
据 特 征 维度 ， 以 更 快 、 更 精准 地 搜索 到 目标 主体 。 在 数据 获取 方面 ， 不 
漫 无 目的 地 妃 求 大 而 全 的 数据 ， 因 为 大 数据 退 求 的 "三 所 有 ”的 全 样本 
是 无 法 实现 的 ， 而 是 以 人 为 原点 ， 重 视 科 选 过 的 有 价值 的 战略 数据 。 通 
过 精准 有 效 的 数据 搜索 ， 机 器 势必 会 成 为 学 得 最 快 、 最 好 的 学 生 。 


(二 ) 天 联 融 合 : 智能 聚合 


在 超 数据 时 代 ， 除 了 “4V” 三 特征 之 外 ， 大 数据 还 表现 出 了 新 的 特 
征 。 一 是 交织 性 (Hybrid) 。 数 据 碎片 化 分 布 在 信息 空间 、 物 理 世 界 
和 人 类 社会 三 元 空间 中 ， 客 观 事物 在 不 同 空间 留 下 了 雁 片 化、 不 完整 的 
数字 足迹 。 为 了 全 面 刻画 事物 全 貌 ， 需 要 充分 友 据 和 利用 三 元 空间 的 交 
织 性 与 互补 性 ， 对 碎片 化 数据 实现 优质 聚合 。 二 是 超 维 性 (Hyper) 。 
数据 片段 之 间 的 关联 天 系 空前 复杂 多 变 。 在 三 元 空间 中 ， 单 一 空间 中 的 
数据 只 能 反映 事物 某 一 方面 的 特征 ， 只 有 融合 三 元 空间 的 关联 数据 ， 对 
各 类 数据 、 信 息 实 现 高 效 的 整合 ， 才 能 解决 人 类 科学 与 知识 探索 中 “ 育 
人 摸 象 * 的 问题 。 


人 的 大 脑 是 一 个 天 然 的 多 源 信息 融合 系统 。 人 和 动物 有 不 同 的 感 
官 ， 他 们 用 眼睛 看 、 用 耳 和 打听、 用 舌 涉 尝 ， 由 此 获得 不 同 质 的 信息 ， 如 
影像 、 声 音 、 味 道 等 。 大 脑 会 综合 处 理 这 些 不 同 质 的 信息 ， 以 判定 对 象 


的 属性 、 本 质 等 ， 这 就 是 自然 界 对 异 构 信息 的 融合 处 理 。' 二 


如 末 说 数据 搜索 能 够 让 我 们 搜索 到 更 丰富 、 更 精准 的 数据 ， 这 些 数 
据 是 通过 不 同 质 的 传感器 对 各 种 对 象 进行 信息 获取 的 ， 那 么 激活 数据 学 
中 的 关联 融合 则 是 对 这 些 多 源 腊 构 信 息 进行 融合 处 理 ， 是 激活 数据 学 的 
数据 预 处 理 阶段 。 关 联 融 合 通 过 探 完 大 脑 信息 融合 的 内 在 机 制 ， 采 用 融 
合 重 构 的 方法 实现 对 多 源 异 构 数 据 的 关联 表达 ， 探 索 数 据 的 内 在 关联 
性 ， 这 是 全 面 认 知 与 理解 数据 的 前 提 ， 让 我 们 能 够 在 海量 、 复 杂 、 碎 片 
化 的 三 元 空间 中 更 清晰 地 刻画 客观 事物 的 全 貌 ， 构 建 人 与 人 之 间 、 人 与 
事物 之 间 、 事 物 与 事物 之 间 的 相互 联系 ， 为 人 人 之 间 、 人 机 之 间 的 深度 
融合 建立 了 一 个 通道 。 


(三 ) 目 激活 : 智能 决 沉 


拥有 数据 并 不 代表 什么 ， 如 果 数 据 不 能 转换 为 知识 和 决策 ， 那 么 数 
据 再 多 也 是 没有 意义 的 。 知 识 的 生产 、 积 累 与 应 用 ， 是 人 类 智能 的 重要 
特征 。 人 类 通过 对 自然 信息 的 感知 上 升 到 知识 的 高 度 ， 并 在 群体 间 分 
享 、 代 代 传 夭 ， 确 保 了 种 群 在 竞争 中 的 领先 性 ， 由 此 绢 延 数 百 万 年 ， 发 
展 至 今 。 


学 习 ， 是 人 类 搭建 从 数据 到 知识 的 桥梁 所 采用 的 方法 ， 是 人 类 重要 
的 智能 行为 之 一 。 人 类 的 智能 之 所 以 远 超 其 他 动物 ， 不 仅仅 是 因为 我 们 
感知 、 认 知 的 范围 和 深度 是 后 者 无 法 比拟 的 ， 更 是 因为 我 们 从 感知 、 认 
知 中 通过 学 习 总 结 出 知识 ， 将 其 转化 为 存储 在 大 脑 中 的 记忆 并 加 以 利 


2011 年 谷歌 的 迪 恩 和 斯 坦 福 大 学 计算 机 系 的 吴 恩 达 在 未 来 技术 实验 
中 心 联合 发 起 了 “谷歌 大 脑 * 研 究 计 划 ， 该 计划 通过 模拟 婴儿 的 大 脑 友 育 
环境 研究 人 脑 的 物体 识别 和 语言 认 知 等 功能 。 他 们 利用 谷歌 的 云 计 算 平 


台 搭 建 了 一 个 配备 16 000 个 CPU 神经 元 和 10 亿 个 突 触 神经 连接 的 谷歌 大 
脑 计 算 平 台 。 为 了 收集 有 效 的 能 够 表征 人 类 生活 环境 的 数据 ， 他 们 从 视 
频 网 站 谷歌 YouTube 上 随机 选取 了 1 000 万 个 视频 ， 从 每 个 视频 里 随机 获 
取 一 个 200x200 像 素 的 截屏 ， 相 当 于 模拟 婴儿 用 眼睛 不 断 观察 到 的 周围 
环境 。 数 据 收集 完成 后 ， 他 们 用 辛 顿 2006 年 提出 的 深度 学 习 分 层 训 练 模 
型 和 自我 编码 解码 校 验 方式 自动 对 这 1 ” 000 万 张 图 片 进行 特征 抽取 与 分 
析 。 这 一 项 目的 目标 之 一 是 查看 该 模型 的 分 层 抽 象 特征 提取 方式 能 否 最 
终 产 生 一 批 高 度 异 化 的 “祖母 神经 元 ”。 结 果 访 实验 不 但 发 现 了 模拟 状态 
的 祖母 神经 元 的 存在 ， 而 且 发 现在 抽象 最 高 层 形成 物体 判断 的 神经 元 中 
居然 有 一 个 对 应 猫 的 面部 图 像 ， 也 就 是 说 ， 通 过 深度 学 习 ， 该 人 工大 脑 
形成 了 对 猫 的 印象 。 深 度 学 习 也 在 很 多 领域 证 明了 其 模拟 人 脑 的 有 效 

性 。 


虽然 深度 学 习 取 得 了 阶段 性 的 成 果 ， 但 是 与 人 脑 比 起 来 ， 机 器 智能 
仍然 存在 很 大 的 差距 。 从 计算 机 的 计算 能 力 来 看 ， 根 据 目 前 对 人 脑 的 最 
新 认识 ， 人 的 大 脑 皮 质 共 有 大 约 860 亿 个 神经 元 ， 能 够 以 每 秒 200MB 的 
速度 进行 并 行 运算 。 新 生 婴 儿 大 脑 皮 质 的 每 个 神经 元 有 大 约 2 ”500 个 突 
触 ， 两 三 岁 时 增加 到 15 000 个 ， 达 到 峰值 。 成 年 后 每 个 神经 元 的 突 触 数 
量 大 约 为 7 500 个 。 相 比 之 下 ，2012 年 设计 的 谷歌 大 脑 总 共有 16 000 个 
CPU 神经 元 和 10 亿 个 突 触 神经 连接 ， 复 杂 度 远 不 及 人 脑 。 事 实 上 ， 束 算 
把 谷歌 计算 平台 所 拥有 的 全 部 服务 器 〈 总 数量 为 几 百 万 台 ) 用 于 大 脑 认 
知 模拟 ， 也 难以 达到 一 个 普通 人 脑 的 神经 元 的 数量 和 关联 度 。 生 命 现 象 
本 身 为 机 器 智能 树立 了 榜样 和 标杆 ， 但 机 器 智能 要 想 追 赶 人 类 的 脚步 ， 
仍然 有 很 长 的 路 要 走 。 


经 过 数据 搜索 和 关联 融合 过 程 后 ， 激 活 数据 学 仍然 停留 在 “数据 ?的 
阶段 。 激 活 数据 学 利用 多 智能 体 扩 术 构 建 复杂 系统 来 模拟 人 脑 智 能 产生 
的 过 程 ， 对 复杂 性 问题 进行 建 模 。 自 激活 是 激活 数据 学 的 核心 环节 ， 具 
有 自主 性 的 智能 体 采用 深度 神经 网 络 学 习 的 方法 将 数据 转换 为 知识 和 决 
策 ， 这 是 激活 数据 学 从 “数据 ?到 “知识 ”的 跃迁 。 每 个 智能 体 即 一 个 独立 


的 “大 脑 *"， 用 “激活 ”来 形象 地 说 明智 能 体 的 学 习 过 程 ， 知 能 体 通过 学 
习 “ 激 活 ? 个 体 智 能 ， 类 似 人 通过 学 习 和 掌握 解决 菜 一 问题 的 能 力 。 智 能 体 
能 根据 外 界 环境 的 变化 自动 调整 自己 的 行为 和 状态 ， 而 不 是 仅仅 被 动 接 
收 外界 的 刺激 ， 具 有 目 我 管理 、 目 我 调节 的 能 力 ， 不 同 的 智能 体 可 根据 
各 目的 意图 与 其 他 智能 体 交 互 ， 能 积 罕 或 学 习 经 验 和 知识 ， 并 修改 上 自己 
的 行为 以 适应 新 环境 。 


(四 ) 热点 减 量化 : 智能 短 选 


记忆 是 人 脑 对 过 去 经 历 过 的 事物 的 反映 。 并 不 是 所 有 经 验 都 能 保存 
在 记忆 中 ， 许 多 信息 在 短 时 记忆 中 就 被 遗 系 了。 在 人 的 大 脑 中 ， 海 马 体 
征 短 时 记忆 的 重要 生理 基础 ， 香 仁 体 是 长 时 记忆 的 重要 生理 基础 。 海 马 
体 在 学 习 过 程 中 发 挥 痢 信息 盘 选 的 作用 ， 选 择 有 必要 记忆 的 信息 送 进香 
仁 体 形成 长 时 记忆 ， 短 时 记忆 则 在 保持 约 30 秒 后 逐渐 衰退 、 遗 乐 和 交 
失 。 当 大 脑 皮 质 再 次 接收 同样 信息 的 刺 油 时， 就 会 从 长 时 记忆 中 提取 出 
右 干 已 存储 的 信息 与 再 次 接收 到 的 单元 融合 ， 形 成 新 的 记忆 单元 ， 这 束 
完成 了 知识 的 重 构 ， 进 而 完成 知识 创造 。 


大 脑 的 筛选 机 制 带 给 我 们 的 局 示 是 ， 在 人 脑 智能 产生 的 过 程 中 ， 大 
脑 并 不 会 记 取 所 有 外 界 刺激 产生 的 反应 ， 而 是 只 留 下 最 有 价值 的 部 分 ， 
这 为 我 们 处 理 海 量 信息 提供 了 一 个 思路 。 机 器 模拟 人 类 产生 智能 是 一 个 
数据 量 和 计算 量 非 和 庞 大 的 工程 ， 如 何 用 了 最 少 的 资源 最 好 、 最 快 地 达到 
学 习 的 目标 和 效果 ， 是 推动 人 工 智能 快速 发 展 和 大 范围 应 用 的 重要 研 完 
内 容 。 


激活 数据 学 的 热点 减 量 化 从 这 一 原理 出 发 ， 基 于 多 层次 的 筛选 机 
制 ， 将 有 限 的 计算 和 存储 资源 分 配给 最 具 价 值 的 数据 单元 ， 实 现 资 源 的 
最 优 配置 ， 提 高 数据 处 理 的 效率 ， 为 下 一 阶段 更 好 、 更 快 地 产生 群体 智 
能 提供 了 环境 文 撑 和 资源 保障 。 减 量化 的 思维 是 超 数据 时 代 有 效 的 数据 


处 理 路 径 之 一 ， 能 够 动态 过 滤 挥 大 量 无 效 的 、 会 对 预 判 结果 产生 干扰 的 
数据 ， 实 现在 有 限 成 本 约束 条 件 下 数据 价值 挖掘 的 最 大 化 。 


(五 ) 群体 智能 : 智能 碰撞 


生物 群体 的 群集 行为 ， 以 及 所 表现 出 的 远 远 超过 个 体 智能 的 群体 知 
能 引发 了 科学 家 对 群体 的 研究 ， 和 群体 乔 能 甚至 比 最 专业 的 个 体 表现 还 要 
好 ， 科 学 家 做 了 各 种 实验 和 尝试 来 证 明 这 一 结论 。 


2007 年 哥伦比亚 大 学 商学 院 做 了 猜测 糖果 数据 的 实验 ， 在 玻璃 饶 中 
放 满 糖果 ， 然 后 请 一 群 人 来 狂 糖 果 的 数量 ， 记 录 每 个 人 的 答案 、 答 案 的 
平均 数 及 其 与 正确 答案 之 间 的 关系 。 糖 果 的 实际 数目 为 1 116 颗 ，73 个 
人 参加 实验 ， 平 均 数 为 1 115 颗 ! 73 个 人 的 个 人 答案 其 实 有 天 壤 之 别 ， 
离 正 确 数字 相差 很 还 ， 但 是 最 后 群体 得 出 的 答案 几乎 接近 正确 答案 。 三 


2016 年 ， 社 交工 具 UNUM 也 开始 了 一 项 特别 的 尝试 ， 通 过 发挥 
其 "电子 媒介 的 条 合剂 ?作用 ， 将 人 们 么 合 在 一 起 ， 产 生 和 群体 智能 。 这 种 
群体 智能 可 以 回答 问题 、 进 行 决 策 、 想 出 点 子 ， 甚 至 可 以 表达 观点 。 这 
个 人 工 群 体 答 试 着 解决 一 些 众所周知 的 问题 : 预测 美国 职业 橄榄 球 联盟 
季 后 赛 、 电 影 金 球 奖 及 奥斯卡 奖 的 结果 。 在 所 有 情况 下 ， 和 群体 智能 的 表 
现 都 远 远 将 个 人 甩 在 了 母后 。 三 


油 活 数据 学 最 终 的 目的 是 将 数据 转换 为 解决 具体 问题 的 决策 ， 这 是 
激活 数据 学 的 价值 所 在 ， 在 目 激 活 阶段 智能 个 体 产生 了 个 体 决 策 ， 相 当 
于 群体 中 押 表 现 出 的 个 体 镶 能 ， 为 了 提升 决策 的 准确 性 和 稳定 性 ， 在 智 
能 碰撞 这 一 阶段 ， 将 引入 人 的 作用 ， 形 成 人 和 机 共同 组 成 的 一 个 智能 群 
体 ， 通 过 人 类 与 机 器 协同 强化 涌现 出 的 超越 个 体 智 能 的 群体 智能 ， 针 对 
复杂 问题 做 出 高 效 、 精 准 的 决策 。 一 方面 ， 人 机 结合 是 提高 我 们 在 不 确 
定性 环境 中 做 预测 和 判断 的 能 力 的 主要 方式 。 综 合 利 用 机 器 智 能 和 人 类 


智能 ， 突 破 各 上 自 的 局 限 和 在 茶 种 程度 上 达到 协同 作用 ， 对 于 解决 复杂 问 
题 是 一 个 新 的 途径 。 必 一 方面 ， 群 体 在 做 出 更 好 的 判断 和 决策 上 ， 比 群 
体内 的 任何 个 体 都 要 好 ， 利 用 高 度 组 织 化 的 智能 实现 判断 和 预测 力 的 提 


升 。 


1. 4V 指 规模 性 (Volume) 、 多 样 性 (Variety) 、 高 速 性 (Velocity〉 和 价值 性 
(Value) 。 一 一 编者 注 
2. 王 军 . 韩 皖 昭 : 仿生 信息 融合 的 开拓 者 [EB/OL ] .〈2014-10- 


28) .http:/www.scichi.cn/content.php?id=1004. 
3. 九州 .如 何在 互联 网 时 代 激 发 群体 智能 [J] .中 外 管理 ，2016 〈4) : 88-89. 
4. 林 思 恩 .1+1>2 三 群体 智能 : 10 个 有 关 和 群体 智 能 的 局 示 [EB/OL] .〈2015-12 一 
08) .https:/www.jianshu.com/p/08e9b5bc3417. 
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第 三 章 


数据 搜索 : 镶 能 感知 


在 科技 发 展 日 新 月 异 的 今天 ， 大 数据 、 人 工 智 能 、 物 联网 、 智 能 传 
感 等 高 新 技术 逐渐 渗透 到 我 们 的 生活 、 工 作 中 ， 为 人 类 经 济 的 发 展 、 生 
活 的 便利 带 来 了 巨大 的 进步 。 从 发 展 脉络 看 ， 人 工 智 能 一 下 处 于 技术 创 
新 的 前 治 ， 近 年 来 更 是 呈现 集中 焊 发 态势 ， 在 智能 搜索 、 人 机 交互 、 可 
穿戴 设备 等 领域 党 到 了 前 所 未 有 的 重视 ， 成 为 产业 界 争 竺 的 前 沿 领 域 。 


如 果 将 人 工 智能 比 作 人 类 的 大 脑 ， 那 互联 网 则 是 人 体 头 部 的 血管 ， 
一 个 抵达 各 部 位 的 网 状 系统 ， 而 数据 和 信息 便 是 最 重要 的 能 够 为 大 脑 活 
动 提供 能 量 的 血液 ， 它 们 也 是 机 器 进行 深度 学 习 所 必需 的 输入 量 和 研究 
基础 。 然 而 ， 随 着 人 工 智 能 时 代 的 来 临 ， 是 否 拥 有 数据 己 经 不 再 重要 ， 
重要 的 是 如 何 快速 找到 所 需 的 数据 。 搜 索引 擎 的 出 现 解决 了 数据 数量 和 
价值 获取 效率 之 间 的 矛盾 ， 让 数据 分 析 挖 掘 和 增值 利用 产生 了 更 加 明显 
的 效果 。 


数据 搜索 是 激活 数据 学 中 的 准备 阶段 ， 其 延续 了 传统 数据 搜索 的 原 
理 和 各 种 技术 ， 同 时 具有 目 身 独特 的 优势 ， 它 的 搜索 范围 更 全 面 ， 智 能 
程度 达到 了 “ 走 一 步 ， 想 十 步 "， 能 在 分 析 前 期 关联 的 基础 上 ， 预 见 性 地 
进行 目 主 搜索 ， 发 现 所 有 关联 的 数据 ， 为 更 精准 的 预 判 搜集 全 面 的 数据 
资源 。 可 以 说 ， 基 于 激活 数据 学 的 数据 搜索 推动 人 工 乔 能 更 好 地 理解 人 
类 和 感知 世界 实现 质 的 飞跃 。 


用 全 
镶 能 感知 与 交互 


(一 ) 生物 感知 


大 干 世 界 ， 不 少 动 植物 体内 的 “时 钟 * 比 人 类 对 于 时 间 的 感觉 更 加 自 
党 、 更 加 准确 。 候 乌 能 准确 地 知道 目 己 的 出 发 日 期 及 时 刻 ， 昆 虫 和 某 些 
植物 也 有 类 似 的 感知 能 力 。 在 田野 里 到 处 飞翔 、 采 集 花 蜜 的 蜜蜂 体内 就 
有 十 分 准确 的 时 钟 ， 知 道 什 么 花 在 上 午 可 采 到 花蜜 ， 什 么 花 在 下 午 可 采 
到 人 花 密 。 地 震 前 ， 植 物 能 感知 到 地 震 即 将 爆发 ， 并 随 着 不 同 的 时 间 相 应 
地 产生 变化 和 反应 。 


一 般 而 言 ,，“ 感 "十 信息 获取 的 过 程 ， 通 过 感知 方法 、 机 制 和 设备 获 
取 目 身 、 其 他 对 象 与 物理 环境 的 各 种 物理 信息 ; 而 “ 知 ” 则 更 多 的 是 利 
用 “ 感 ” 获 取 的 信息 进行 识别 、 推 理 、 判 断 与 决策 。 三 有 些 东西 是 我 们 用 
眼睛 看 不 到 的 ， 如 黑暗 中 的 物体 ， 但 我 们 可 以 凭借 手 和 导体 感知 它们 的 
存在 。 有 些 东 西 是 我 们 无 法 用 手 和 号 体 触摸 到 的 ， 如 远 处 的 物体 或 者 风 
景 ， 但 我 们 可 以 用 眼睛 感知 它们 的 存在 。 有 些 东 西 我 们 无 法 用 眼睛 看 
到 ， 也 无 法 用 手 和 号 体 碰 触 到 ， 如 歌声 、 音 乐 、 话 语 等 ， 但 我 们 可 以 用 
耳 东 感知 它们 的 存在 。 还 有 一 些 东西 是 我 们 的 感官 无 法 直接 感 党 到 的 ， 
如 紫外 线 、 红 外 线 、 细 胞 、 粒 子 与 电磁 波 等 ， 我 们 可 以 制造 各 种 仪 右 ， 
借助 工具 感知 它们 的 存在 。 


还 有 一 种 情况 ， 通 过 眼 、 耳 、 自 、 舌 、 身 、 意 获取 外 面 的 信息 ， 反 
饥 给 心神 ， 瞬 间 得 到 答案 或 相应 的 缘起 缘 灭 等 信息 。 这 是 一 种 特殊 的 修 
者 的 境界 或 状态 。 人 类 用 心 念 来 诠释 目 己 器 官 所 接收 的 信号 ， 称 为 感 


知 。 为 什么 我 们 能 够 感知 到 呢 ? 因 为 人 体 的 每 个 费 官 (包括 感觉 、 生 殖 
与 内 脏 占 官 ) 都 是 外 在 世界 信号 的 “接收 需 ”， 只 要 是 它 范 围 内 的 信和 号， 
经 过 茶 种 刺激 ， 器 官 就 能 将 其 接收 ， 并 转换 成 感 党 信号 ， 再 经 由 目 身 的 
神经 网 络 传输 到 我 们 心 念 思维 的 中 心 一 一 头脑” 中， 进行 情感 格 式 化 的 
处 理 ， 之 后 就 产生 了 我 们 的 感知 。 


感知 的 意义 范围 很 广 ， 主 要 意思 是 客观 事物 通过 感觉 器 官 在 人 脑 中 
的 直接 反映 。 感 知 能 力 则 是 通过 感觉 器 官 感 觉 某 样 不 可 视 或 者 肉眼 无 法 
直接 观察 的 物体 ， 并 能 通过 感 沉 描绘 出 其 具体 形状 或 者 运动 状态 的 一 种 
超 能 力 。 这 种 能 力 不 是 人 人 省 有 的 ， 但 是 通过 后 天 大 量 的 刻 百 练习 ， 人 
可 以 获得 一 定 程度 的 这 种 能 力 ， 比 如 可 以 感 党 出 背后 某 物 体 的 形状 、 颜 
色 、 运 动 状态 。 其 实质 是 物体 向 外 辐射 的 红外 线 被 人 体 向 外 辐射 的 脑 电 
波 擒获 ， 在 脑 部 形成 对 该 物体 一 定 的 判断 。 


客 
官 


所 有 生物 都 具备 感知 能 力 ， 都 有 感 与 知 的 关系 。 感 和 知 是 生物 具备 
的 本 能 ， 感 知 能 力 在 不 同 物种 、 不 同 个 体 间 各 不 相同 ， 感 和 知 都 是 在 本 
能 作用 和 存在 环境 里 自然 形成 的 。 作 为 蝙蝠 饵 食 的 褐色 蛾 、 尺 蛾 或 叶 卷 
蛾 等 昆虫 ， 听 到 蜗 蝠 发 出 的 超声 波 ， 就 知道 为 保护 上 自己 而 进行 防御 。 只 
要 蝙蝠 飞 进 30 米 防线 ， 蛾 就 马上 合 上 翅膀 ， 从 空中 急速 掉 落 地 面 。 当 蜗 
蝠 不 在 附近 时 ， 蛾 会 再 次 飞 起 。 蛾 也 许 有 能 听 到 蝙蝠 发 出 的 超声 波 的 耳 
东 吧 ? 科学 家 对 蛾 的 听觉 部 位 做 了 研究 ， 认 为 在 其 胸部 和 躯干 之 间 ， 也 
就 是 在 腰部 两 劳 ， 好 像 有 一 对 能 感知 超声 波 的 器 官 ， 构 造 非常 简单 ， 功 
能 却 十 分 优越 。 这 对 右 官 有 感觉 神经 细胞 ， 能 放大 超声 波 的 振动 ， 并 把 
证 写 传 到 大 脑 而 决定 其 行动 。 


当 蜗 蝠 飞 来 时 ， 无 论 从 哪个 侧面 问 蛾 逼近 ， 蛾 的 神经 细胞 都 会 产生 
较 强 的 信和 号， 于 是 蛾 为 防止 被 捕 提 而 做 锯齿 形 或 复杂 形式 的 飞行 ， 以 此 
逃避 。 妆 蝙蝠 飞 至 约 6 米 距离 时 ， 蛾 的 感觉 细胞 就 产生 更 强 的 脉冲 ， 频 
率 急 剧 加 快 ， 这 样 ， 峨 只 好 集 止 飞行 ， 迅 速 挥 落 到 地 面 上 。 蛾 诱骗 蝙 晤 
的 这 个 行动 ， 实 际 上 早 在 蝙 蚁 意料 之 中 。 先 前 正 飞 向 蛾 的 蝙 蚁 突然 改变 


方 加 估算 出 蛾 落下 时 的 轨迹 路 线 ， 在 蛾 掉 落 地 面 之 前 还 住 它 ， 蛾 成 为 蜗 
蝠 口中 之 物 。 


感知 力 在 人 和 品级 动物 的 个 体 生存 过 程 中 发 挥 厦 超越 应 激 反 应 的 积 
极 作用 ， 是 与 环境 互动 ， 发 生 知觉 反应 的 根本 原因 。 人 类 拥有 高 级 的 语 
言 能 力 、 思 维 能 力 、 学 习 能 力 ， 很 多 人 认为 人 类 不 能 和 其 他 动物 相 提 并 
论 ， 但 是 为 什么 在 很 多 灾难 到 来 之 前 ， 动 物 都 会 有 一 些 预感 并 炭 避 灾 
难 ， 而 人 类 这 种 最 高 级 的 动物 却 完全 没有 意识 到 ， 只 能 坐 以 待 疆 。 人 们 
研究 认为 ， 过 去 的 人 类 也 具有 类 似 动物 的 感知 能 力 ， 现 在 却 由 于 茶 种 原 
因 前 弱 了 这 种 能 力 。 直 觉 是 所 有 动物 的 本 能 ， 人 类 也 是 凭借 直 沉 得 以 生 
存 延 续 至 今 的 。 人 类 的 祖先 一 定 也 拥有 优 于 其 他 动物 的 本 能 ， 才 能 在 大 
目 然 中 完美 进化 。 从 茶 种 意义 上 说 ， 人 类 文明 是 一 个 人 类 对 世界 和 目 己 
不 断 认 知 的 过 程 ， 所 谓 认 知 就 是 对 有 用 的 数据 言 恩 进 行 采集 过 滤 、 
加 工 处 理 、 预 测 输 出 、 调 整 反馈 的 全 过 程 。 


(二 ) 机 器 感知 


人 的 感知 通过 计算 机 离散 化 处 理 方式 可 被 记录 、 被 量化 、 被 计算 。 
通常 来 说 ， 机 器 感知 就 是 借助 各 种 传感器 识别 周边 环境 ， 这 些 传感器 相 
当 于 人 的 眼 、 耳 、 且 、 皮 肤 等 。 比 如 视觉 感知 ， 类 比 人 类 的 视觉 系统 ， 
用 摄影 头 代 替 人 眼 对 目标 进行 识别 、 跟 踪 和 测量 等 。 当 前 ， 服 务 机 器 的 
计算 机 视觉 已 经 相当 完善 了 ， 如 人 脸 识 别 、 图 像 识 别 、 定 位 测 距 等 。 可 
以 说 ， 在 为 人 类 提供 服务 时 , “看 得 见 东西 ?的 机 器 比 <* 育 人 ”机 器 有 用 得 
多 。 再 如 声音 感知 ， 语 音 是 人 机 交互 最 常用 、 最 便捷 的 方式 ， 由 此 ， 对 
服务 机 器 而 言 ， 语 普 识 别 是 必 备 的 重要 功能 之 一 。 


计算 机 将 人 的 感知 活动 合理 地 “分 割 ? 或 " 俯 片 化 "， 把 对 感知 的 “ 整 
体 性 ” 连续 性 分 析 转 化 为 "个体 性 ”的 离散 化 处 理 。 这 种 离散 化 处 理 惑 
是 对 人 的 感知 的 整体 进行 解构 ， 展 示 为 相互 关联 的 独立 特征 ， 然 后 通过 


汇总 特征 达到 对 人 的 感知 的 整体 把 握 。 这 样 的 过 程 是 基于 离散 的 角度 解 
构 与 重 构 感知 活动 ， 在 现实 和 虚拟 的 离散 空间 中 完成 的 。 计 算 机 通过 对 
抽象 化 数据 的 信息 加 工 ， 即 编码 、 存 储 、 提 取 、 遗 瑟 ， 实 现 对 人 的 数据 
的 可 识别 、 可 感知 。 人 工 智能 和 计算 机 模拟 作为 侧重 于 关注 实际 应 用 的 
认 知 信息 加 工 理论 中 最 具 代 表 性 的 独特 的 研究 方法 ， 大 多 通过 对 人 脑 心 
理 过 程 的 模拟 对 人 的 内 部 信息 加 工 过 程 进 行 逻辑 分 析 。 


人 工 乔 能 的 本 质 是 对 人 类 思维 的 信息 过 程 的 模拟 ， 是 人 类 智能 的 物 
化 。 机 器 思维 《 即 人 工 智能 ) 表明 ， 思 维 形式 在 思维 活动 中 对 于 思维 内 
容 上 共有 相对 独立 性 ， 它 可 从 人 脑 中 分 化 出 来 ， 物 化 为 机 械 、 物 理 的 运动 
形式 ， 部 分 地 代 蔡 人 的 思维 活动 。 机 喜与 人 脑 的 本 质 区 别 在 于 其 本 身 是 
一 种 无 意识 的 机 械 活动 的 过 程 ， 而 人 类 的 意识 是 长 久 以 来 文明 社会 长 期 
进化 发 展 的 产物 ， 是 人 类 在 生理 基础 上 的 心理 过 程 ， 是 人 类 由 情感 、 直 
党、 想象 等 一 系列 的 精神 活动 构成 的 精神 世界 。 人 类 智能 在 执行 任务 和 
工作 时 会 考虑 主观 与 客观 的 因 系 来 进行 决策 、 行 动 ， 它 是 社会 的 产物 ， 
而 机 器 智能 则 是 被 动 地 接受 一 种 逻辑 指令 来 开展 工作 。 二 者 相 比 较 ， 上 总 
是 人 脑 思 维 优先 于 机 器 思维 。 


人 类 拥有 “ 完 形 ” 认 知 的 心理 能 力 ， 能 让 我 们 把 雁 片 信息 编制 完整 。 
这 是 一 种 高 度 统合 的 能 力 ， 我 们 能 把 颈 体 五 感 统合 起 来 ， 共 同 构成 对 世 
界 的 感觉 。 三 同样 ， 人 从 各 个 方面 得 到 的 雁 片 知识 也 有 一 种 统合 的 能 
力 ， 大 脑 会 把 雁 片 粘贴 起 来 ， 把 雁 片 之 间 的 部 分 补 齐 ， 以 期 构成 一 个 完 
整 的 知识 世界 ， 而 机 器 缺少 物理 世界 的 生活 经 验 ， 处 理 的 是 人 类 的 二 手 
言 思 ， 对 于 周围 的 物理 世界 缺乏 真实 接触 。 虽 然 目 前 人 工 智 能 已 经 可 以 
精细 识别 人 类 的 表情 ， 能 够 读 情 人 的 情绪 ， 但 是 其 缺乏 对 于 他 人 心理 的 
常识 系统 ， 仍 然 难 以 “理解 * 人 类 日 常 的 语言 。 因 此 ， 人 工 智 能 和 人 类 智 
能 最 大 的 差异 或 许 是 : 真实 世界 与 抽象 符 写 之 间 的 关联 性 。 人 工 智 能 处 
理 的 是 符号 与 符号 之 间 的 关系 ， 而 人 类 头脑 处 理 的 是 真实 世界 到 符号 的 
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认 知 科学 的 自主 感知 和 人 类 对 自身 及 所 处 环境 的 自主 感知 一 样 ， 首 
先 通 过 视觉 、 听 沉 和 触 党 等 类 似 的 传 感 希 获取 庞大 的 目 喘 及 外 界 环境 中 
的 各 种 信息 。 齐 无 疑问 ， 这 些 信 息 是 海量 的 ， 如 果 不 经 处 理 便 直接 交 给 
处 理 能 力 有 限 的 大 脑 ， 就 会 导致 系统 过 载 。 海 量 信息 中 只 有 一 小 部 分 对 
系统 的 茶 一 认 知 行为 起 主导 作用 ， 所 以 没 必 要 进行 信息 筛选 ， 这 样 能 提 
高 系统 的 认 知 效率 。 因 此 ， 基 于 认 知 科学 的 乔 能 加 工 机 器 的 感知 机 理 也 
再 要 能 够 选择 与 智能 机 需 上 自主 感知 相关 的 特征 。 基 于 认 知 科学 的 感知 内 
容 主 要 包括 信息 获取 、 学 习 经 验 知识 、 推 理 决 策 等 方面 。 


感知 是 连接 主体 (智能 机 器 ) 与 客体 的 桥 染 ， 虽 然 研究 中 币 弟 把 感 
知 问题 如 计算 机 视觉 、 语 音 识 别 等 孤立 出 来 进行 研究 ， 但 很 多 问题 是 和 
主体 环境 密 不 可 分 的 ， 对 于 这 类 问题 如 目 动 驾 驶 、 机 器 人 导航 等 ， 必 须 
与 主体 相 结 合 。 这 种 结合 为 感知 系统 和 作为 主体 的 智能 机 器 提供 了 很 好 
的 互补 信息 ， 典 型 的 情形 如 主体 的 运动 可 以 为 视觉 系统 提供 从 不 同 角度 
观察 环境 的 能 力 ， 从 而 弥补 了 视 沉 系统 基线 长 度 受 限 ， 以 及 成 像 光 照 和 
姿态 的 问题 ， 同 时 可 以 提供 从 对 象 已 知 视 角 学 习 未 知 视角 表示 的 能 力 ， 

变化 头 部 位 置 与 明 辐 同样 为 听觉 系 统 提 供 了 更 加 准确 地 辨认 声 源 的 能 

力 。 同 时 ， 不 同感 知 器 官 间 相 互补 充 ， 可 以 提供 对 客体 的 更 加 完整 的 表 
达 与 理解 。 一 旦 感知 系统 随 主体 进入 真实 环境 ， 就 不 可 避免 地 需要 面 对 
开 集 问题 ， 以 往 闭 集 条 件 下 的 一 些 假设 如 解 的 存在 性 束 不 再 能 够 得 以 保 
隐 ， 因 而 问题 的 难度 将 大 大 增加 。 与 此 同时 ， 与 主体 结合 的 感知 一 旦 出 
错 ， 付 出 的 代价 也 会 大 大 增加 。 


(三 ) 交互 识别 


不 管 是 人 类 还 是 机 器 ， 感 知 部 是 最 基层 的 ， 而 认 知 则 是 往 上 再 进 一 
步 的 升华 。 在 认 知 的 基础 上 ， 服 务 机 器 才能 理解 人 类 的 各 个 方面 ， 才 能 
与 人 类 更 自然 地 交互 。 感 知 为 智能 机 器 提供 了 被 动 的 信息 获取 能 力 ， 相 
对 于 感知 而 言 ， 交 互 可 以 提供 一 定 程度 上 的 主动 能 力 ， 这 种 交互 能 力 为 


感知 增加 了 从 多 维度 主动 获取 信息 的 能 力 ， 如 同 所 有 动物 的 感知 系统 ， 
脱离 交互 的 感知 其 获取 信息 的 能 力 是 非常 有 限 的 。 从 孤立 问题 进行 研究 
的 角度 ， 感 知 和 交互 看 似 是 相 互 独立 的 ， 实 际 上 却 和 常常 是 紧密 相关 的 。 
感知 为 交互 的 探索 提供 了 关于 交互 对 象 、 交 互 强 度 、 交 互 效果 的 信息 ; 
与 此 同时 ， 交 互 则 为 感知 提供 了 多 维度 的 感知 能 力 。 以 前 我 们 是 以 机 器 
为 中 心 进行 交互 的 ， 未 来 在 万 物 互 联 浪潮 下 ， 会 以 人 为 中 心 进行 交互 ， 
人 根据 语音 的 控制 、 视 觉 的 控制 ， 配 合 手 的 操作 完成 交互 。 


从 作为 计算 机 载体 的 其 他 设备 / 闭 置 的 角度 来 看 ， 计 算 机 也 不 再 是 
单一 下 板 的 控制 台 形 象 。 小 到 手表 ， 大 到 各 种 航行 器 ， 计 算 机 在 其 中 扮 
演 着 不 可 或 缺 的 重要 角色 。 因 此 ， 除 了 需要 和 人 类 用 户 交 互 之 外 ， 计 算 
机 还 需要 和 自然 环境 交互 ， 因 而 其 感知 和 交互 的 对 象 不 仅仅 是 人 类 ， 还 
有 各 种 真实 世界 。 例 如 ， 对 机 器 而 言 ， 需 要 与 其 拥有 者 及 之 外 的 其 他 人 
和 环境 进行 交互 。 当 今 的 大 型 飞机 更 像 一 台 会 飞行 的 计算 机 ， 其 在 自动 
飞行 及 育 降 过 程 中 都 需要 和 环境 进行 有 效 的 交互 ， 这 就 要 求 计算 系统 具 
备 感知 外 界 的 能 力 ， 实 现 类 似 人 类 的 感知 功能 。 近 年 来 ， 人 工 乔 能 也 已 
经 进入 新 一 轮 的 快速 友 展 期 ， 有 一 点 是 明确 的 ， 感 知 和 交互 除了 是 智能 
行为 自身 最 好 的 体现 外 ， 还 是 智能 发 育 的 基础 和 文 撑 。 


人 类 得 以 在 目 然 界 中 长 期 生存 ， 一 个 重要 的 原因 就 是 拥有 迅速 认识 
并 理解 其 所 处 环境 的 能 力 ， 而 这 其 中 的 关键 环节 是 利用 人 类 视觉 系统 完 
成 对 目标 的 定位 与 识别 ， 同 时 实现 对 视觉 场景 的 理解 与 描述 。 如 果 计 算 
机 能 够 实现 自动 的 图 像 识 别 ， 必 将 进一步 丰 蚜 与 方便 人 类 生活 ， 这 促使 
图 像 识别 技术 成 为 当前 人 工 智 能 领域 重要 的 研究 方 癌 之 一 。 图 像 识 别 是 
指 利用 计算 机 视觉 、 模 式 识别 、 机 器 学 习 等 技术 方法 ， 目 动 识别 图 像 中 
存在 的 一 个 或 多 个 语义 概念 ， 广 义 的 图 像 识别 还 包括 对 识别 的 概念 进行 
图 像 区 域 定位 等 。 图 像 识别 拉 术 可 以 满足 用 户 在 不 同 场景 下 的 视觉 应 用 
需求 ， 主 要 包括 面 同 互联 网 的 图 像 检 索 与 挖掘 、 面 向 移动 设备 和 机 器 人 
等 智能 终端 的 人 机 对 话 与 信息 服务 等 。 


视觉 识别 技术 在 机 器 人 的 领域 也 扮演 着 举足轻重 的 角色 。 作 为 机 器 
人 感知 外 界 环境 信息 的 一 个 重要 输入 渠道 ， 其 对 于 机 器 人 理解 周围 场景 
和 辅助 完成 特定 任务 具有 人 至 关 重 要 的 作用 。 目 前 视觉 识别 技术 在 机 器 人 
领域 的 应 用 主要 有 环境 理解 、 目 学 习 物 体 识别 和 智能 交互、 导航 与 避 障 
等 。 面 癌 机 器 人 的 视 党 识别 技术 不 同 于 其 他 单纯 的 视觉 识别 方法 ， 其 具 
有 一 定 的 交互 能 力 《〈 语 言 、 动 作 等 ) 和 多 感知 能 力 《〈 深 度 信息 感应 器 、 
定位 装置 等 ) ， 对 于 机 器 人 的 视觉 能 力 可 以 起 到 一 定 的 辅助 作用 。 图 像 
识别 技术 同时 识别 人 脸 和 物体 ， 可 以 帮助 关联 理解 用 户 意 图 和 兴趣 爱 
好 。 目 前 受到 广泛 关注 的 图 像 描述 和 问答 技术 也 会 很 快 和 机 器 人 的 视觉 
交互 应 用 相 结 合 ， 产 生 新 的 研究 内 容 和 应 用 场景 ， 从 而 进一步 促进 视觉 
识别 技术 的 发 展 和 进步 。 


随 着 大 数据 、 机 器 学 习 、 云 计算 、 人 工 智 能 等 技术 的 发 展 ， 语 音 识 
别 在 一 步 步 解 放 用 户 的 双手 ， 语 音 输入 框 也 大 有 取代 鼠标 、 键 盘 之 势 。 
伴随 着 智能 移动 设备 的 普及 ， 语 音 交 互 作 为 一 种 新 型 的 人 机 交互 方 式 ， 
正 越 来 越 引起 整个 全 业界 的 重视 。 如 何 让 智能 语 首 从 “ 听 到 ”进化 到 “ 听 
展 ”*”， 实 现 语音 服务 的 通用 化 ， 更 多 地 服务 于 现实 生活 场景 ， 更 好 地 普 
患 于 移动 互联 网 用 户 ， 尺 管 仍 有 障碍 吸 竺 逾越， 但 这 必 将 是 规模 工业 化 
的 重点 突破 方 辐 。 在 智能 语 首 专 家 看 来 ， 剥 离 了 诸多 衍生 服务 、 仪 集中 
于 语音 技术 的 时 代 已 经过 去 ， 未 来 的 规模 工业 化 发 展 趋势 已 然 显 现 ， 下 
一 阶段 的 变革 之 旅 正在 开启 。 


新 兴 的 万 物 互联 时 代 需 要 新 的 交互 方式 ， 人 们 已 开始 从 智能 手机 的 
触摸 模式 转向 智能 家 居所 必需 的 远 场 语音 交互 ， 这 样 的 交互 离 不 开 智 能 
语音 和 语言 技术 的 文 撑 。 甚 至 有 人 认为 ， 语 音 交 互 将 会 成 为 数据 智能 的 
第 一 个 爆发 点 ， 下 一 轮 的 入 口 之 争 将 再 次 出 现 。 从 互联 网 诞生 之 日 起 ， 
搜索 框 便 成 为 人 们 进入 互联 网 的 重要 入 口 ， 但 语音 识别 一 经 出 现 ， 搜 索 
框 的 地 位 就 被 动摇， 在 未 来 或 将 逐步 被 取代 。 目 前 语 首 识别 拷 术 过 到 的 
瓶 锋 是 对 口音 、 噪 声 、 远 场 的 识别 。 其 中 ， 基 于 深度 学 习 的 个 性 化 识 
别 ， 是 未 来 语音 识别 技术 全 面 普及 与 应 用 的 重大 挑战 。 在 真实 的 应 用 场 


景 下 ， 说 话 者 、 环 境 、 设 备 三 个 因 系 全 加 在 一 起 ， 使 语 首 识别 的 应 用 场 
景 更 加 复杂 。 如 何 处 理 这 些 不 确定 性 ， 成 为 摆 在 研发 人 员 面前 的 一 项 重 
大 挑战 。 
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第 二 下 
搜索 引擎 : 连接 人 与 信息 


(一 ) 从 “ 寻 物 "到 “ 搜 数 ” 


宇宙 间 万 事 万 物 的 变化 其 实 都 是 “ 数 ” 的 变化 三， 世界 的 本 源 即 是 数 
扬 。 在 一 切 丝 可 量化 的 社会 中 ， 数 据 搜索 友 挥 厦 越 来 越 重 要 的 作用 。 人 
类 大 脑 根据 搜索 目标 的 相关 特征 ， 构 建 目 标 男 像 ， 并 逐步 学 习 积 宗 更 多 
相关 特征 ， 使 画像 进一步 清晰 ， 最 终 精 准 地 找到 目标 。 事 实 上 ， 计 算 机 
有 者 和 人 脑 一 样 的 工作 方式 ， 深 度 学 习 更 接近 人 类 的 学 习 方 式 。 


人 和 计算 机 一 样 都 要 存储 信息 ， 也 因此 必然 具有 使 这 种 存储 成 为 可 
能 的 结构 和 加 工 过 程 ， 人 脑 也 第 稼 需要 对 信息 进行 重新 编码 ， 即 改变 信 
奶 被 记录 和 呈现 的 方式 ， 还 必须 操作 这 些 信 息 一 一 以 茶 种 方式 改变 其 形 
式 ， 如 重新 排列 、 增 减 信息 、 从 中 进行 推演 等 。 一 切 都 是 数据 ， 视 觉 、 
听觉 、 虽 党 等 所 有 感官 信息 进入 大 脑 后 都 会 变 成 数据 。 如 同 计算 机 处 理 
二 进 制 数据 一 样 ， 人 类 大 脑 也 有 目 己 的 数据 格式 ， 并 且 会 把 外 界 的 感知 
都 转换 成 符合 目 己 格式 的 数据 。 知 觉 的 信息 加 工 理 论 认为 ， 外 部 刺激 或 
信息 经 由 感觉 器 官 进入 人 的 大 脑 ， 大 脑 根据 感觉 材料 的 性 质 及 存储 在 记 
忆 中 的 原 有 知识 和 经 验 对 这 些 材料 进行 加 工 ， 然 后 形成 印象 或 知觉 。 


目下 而 上 的 加 工 过 程 ， 或 称 数据 一 驱动 加 工 过 程 ， 指 的 是 知觉 者 从 
环境 中 细小 的 信息 开始 ， 将 它们 以 各 种 不 同 的 方式 加 以 组 合 以 形成 知 
觉 。 三 目 上 而 下 或 概念 驱动 加 工 是 指 由 当时 的 情境 、 过 去 的 经 验 或 两 者 
共同 产生 的 期 望 所 引导 的 加 工 过 程 。 三 例如 ， 有 人 告诉 你 此 时 你 所 在 的 
房间 里 有 只 苍蝇 ， 你 会 往 哪 儿 看 ? 想象 如 果 你 要 找 的 是 只 曙 蛛 或 螃 螂 ， 


又 会 往 哪 儿 看 ? 对 这 些 生物 的 过 去 经 验 会 引导 你 首先 朝 什 么 地 方 看 ， 是 
墙壁 、 地 面 还 是 天 花 板 ? 你 可 以 将 这 一 寻找 不 同 昆虫 的 知 党 加 工 看 作 目 
上 而 下 式 的 ， 你 的 期 望 和 经 验 引 导 着 你 搜寻 的 方向 。 


当然 ， 目 上 而 下 的 加 工 必 须 和 目下 而 上 的 加 工 共 同 作用 ， 人 否则 你 将 
永远 不 可 能 知觉 到 未 曾 预期 的 事物 。 我 们 遇 到 并 期 望 从 中 获得 意义 的 每 
个 物体 、 事 件 或 其 他 刺激 ， 都 会 与 先前 已 经 存储 的 模式 或 模板 进行 比 
较 。 因 此 ， 知 觉 的 过 程 包括 将 输入 信息 与 已 经 存储 的 模板 进行 比较 ， 并 
从 中 找 出 一 种 匹配 的 模板 。 如 果 有 几 个 模板 都 与 之 匹配 或 接近 ， 我 们 束 
需要 通过 进一步 的 加 工区 分 出 哪个 模板 最 为 合适 。 请 注意 ， 这 一 模型 意 
味 着 在 我 们 的 知识 库 中 已 经 存储 了 数 以 百 万 计 的 不 同 模板 ， 即 每 个 我 们 
可 以 辨认 的 不 同 物体 或 模式 都 有 一 个 与 之 匹配 的 模板 存在 。 


人 脑 中 所 有 被 知觉 的 数据 都 具有 高 度 的 关联 性 ， 这 就 是 为 什么 我 们 
看 到 一 幅 夯 面 会 联想 起 很 多 相关 的 东西 。 看 看 自己 养 的 一 条 狗 ， 不 仅 能 
认 出 它 ， 而 且 能 辨认 它 的 每 个 部 位 ， 耳 入、 鼻子、 尾巴 、 背 部 、 丰 子 、 
胸部 和 眼睛 等 。 与 将 刺激 作为 一 个 整体 进行 加 工 不 同 ， 我 们 也 可 能 将 刺 
激 分 解 为 不 同 的 成 分 ， 根 据 我 们 对 部 分 的 认识 推断 出 整体 代表 的 是 什 
么 。 这 些 被 搜寻 和 辨认 的 部 分 称 为 符 征 。 因 此 ， 在 这 个 模型 中 ， 对 整个 
物体 的 认识 依赖 对 其 特征 的 辨识 。 特 定 的 探测 器 .三 会 对 输入 的 模式 进行 
扫描 ， 以 寻找 一 种 特定 的 特征 。 如 宋 该 特征 存在 ， 探 测 需 束 会 迅速 做 出 
反应 ; 如 末 该 特征 不 存在 ， 探 测 器 就 不 会 有 强烈 的 反应 。 每 种 探 测 需 显 
然 只 负责 探测 一 种 特征 的 存在 。 


在 介绍 数据 搜索 之 前 ， 我 们 需要 首先 讨论 搜索 的 本 质 性 问题 ， 在 数 
据 时 代 ， 我 们 搜索 的 到 底 是 什么 ? 这 就 引出 一 个 基本 问题 ， 数 据 、 信 息 
和 知识 这 三 个 基本 概念 有 什么 本 质 区 别 ? 事实 上 ， 在 单纯 的 表示 形式 
上 ， 是 很 难 区 分 数据 、 信 息 和 知识 的 ， 任 何 东 西 在 计算 机 中 都 表示 成 数 
据 符号 ， 如 ASCII〈 美 国信 息 交 换 标准 代码 ) 三 字符 等 。 只 有 通过 关 
系 ， 这 些 数据 符号 才 有 可 能 进一步 区 分 为 信息 和 知识 。 从 石器 时 代 到 信 


恩 时 代 ， 人 类 的 发 展 离 不 开 知识 与 信息 ， 通 过 不 断 地 学 习 新 知识 ， 收 集 
各 种 各 样 的 信息 ， 社 会 得 到 了 有 发展 和 进步 。 通 常 ， 信 息 的 外 延 十 分 宽 
泛 ， 知 识 是 有 序 化 的 部 分 信息 ， 是 同类 信息 的 积聚 。 搜 索 信 息 本 喘 并 不 
是 目的 ， 因 为 信息 的 很 大 一 部 分 是 无 用 的 信息 垃圾 。 相 反 ， 人 们 在 搜索 
某 些 信息 时 总 带 着 菜 些 目的 ,希望 搜 索 到 的 信息 能 够 帮助 他 们 达到 这 些 
目的 。 信 息 加 上 用 户 的 目的 ， 实 际 上 才 构 成 知识 。 因 此 ， 数 据 搜索 的 是 
知识 ， 而 不 是 信息 。 


诗 轧 时 代 ， 实 际 上 经 历 了 一 个 从 “人 找 信息 ”到 “信息 找 人 ”的 过 程 。 
在 “人 找 信息 ”的 时 代 ， 比 如 ， 我 们 最 初 的 广播 模式 一 一 听 收 音 机 或 看 电 
视 ， 是 信息 推送 给 我 们 的 ， 但 信息 并 不 知道 我 们 是 谁 。 随 着 互联 网 搁 术 
的 发 展 、 搜 索引 人 苟 的 出 现 ， 我 们 知道 如 何 快 速 找到 需要 的 信息 。 未 来 ， 
拥有 海量 数据 的 万 物 互 联 时 代 ， 搜 索引 擎 要 求 “信息 找 人 ”更 主动 、 更 全 
面 ， 而 且 快 捷 、 高 效 地 提供 所 需 的 信息 ， 从 而 使 得 事物 之 间 的 联络 不 断 
回首 智能 化 的 方 癌 发 展 ， 节 终 让 机 器 代表 人 去 挖掘 信息 、 获 取 知 识 、 发 
现 规律 。 因 此 ， 让 机 器 更 届 人 ， 这 是 人 工 智 能 真正 成 功 的 标志 。 从 各 种 
各 样 的 数据 中 快速 获取 有 价值 信息 的 能 力 ， 对 于 认 知 科学 的 发 展 至 天 重 
要 ， 同 时 也 意味 着 人 类 大 数据 思维 范式 的 真正 形成 。 


(二 ) 谷歌 搜索 : 让 沉 动 的 信息 产生 智能 


早 在 2001 年 ， 谷 歌 创 始 人 拉 里 : 佩 奇 对 谷歌 的 定位 就 是 人 工 乔 能 。 
2011 年 ， 为 了 深入 研究 人 工 知 能， 知名 的 谷歌 X 实 验 室 创建 了 内 部 代号 
为 谷歌 大 脑 的 人 工 知 能 项 目 。 随 着 搜索 技术 的 不 断 发 展 ， 谷 歌 正 朝 一 个 
辆 新 的 技术 前 沿 大 步 近 进 ， 谷 歌 能 真正 理解 你 提出 的 问题 ， 并 且 给 出 相 
应 的 答案 ， 不 仅仅 是 展示 简单 匹配 关键 字 的 搜索 结果 ， 还 能 够 提供 现实 
世界 中 的 知识 解答 一 一 将 来 的 菜 天 甚至 能 够 达到 智慧 搜索 引擎 的 程度 。 


制造 与 人 类 思维 匹配 的 智能 。 谷 歌 搜 索 的 最 大 创新 是 引入 新 算法 


Page Rank《“ 网 页 排名 ) 。 首 先 ， 谷 歌 机 器 人 获取 每 个 可 访问 网 站 的 内 
容 。 这 些 数据 将 被 分 解 成 一 个 索引 〈 通 过 文字 进行 组 织 ， 就 像 书 本 的 目 
录 ) ， 这 样 就 可 以 根据 内 容 找到 任何 页 面 。 每 当 用 户 键入 一 个 查询 ， 人 和合 
歌 就 会 在 索引 中 搜寻 相关 页 面 ， 然 后 返回 一 个 包含 多 达 数 百 万 个 页 面 的 
列表 。 最 复杂 的 是 对 列表 进行 排序 ， 也 就是 决定 哪些 页 面 应 该 出 现在 最 
上 面 。 此 时 ， 上 下 文 便 有 了 用 武之 地 。 所 有 搜索 引擎 都 会 引入 上 下 文 ， 
但 没有 一 个 像 谷歌 那样 引入 得 那样 多 、 应 用 得 那样 自如 。Page Rank 本 
喘 也 是 一 个 信和 号， 同时 也 是 页 面 的 一 个 属性 〈 指 其 相对 于 其 他 网 页 的 重 
要 性 ) ， 该 属性 可 以 帮助 确定 其 与 查询 内 容 的 相关 性 ， 其 中 的 一 些 信号 
在 现在 看 来 是 显而易见 的 。 


谷歌 在 对 查询 结果 进行 过 滤 处 理 时 ， 对 于 通常 的 查询 ， 会 把 相关 的 
专题 性 垂直 搜索 结果 (如 新 闻 、 购 物 、 视 频 、 书 籍 、 地 图 等 ) 也 加 到 返 
回 的 查询 结果 中 。 在 个 性 化 方面 ， 用 户 访 问 过 的 网 站 在 查询 结果 列表 中 
会 更 徘 上 。 大 量 使 用 销 点 的 网 站 有 可 能 被 从 查询 结果 中 删除 。 谷 歌 的 搜 
索 结果 具有 聚 艇 性 如果 网 页 被 其 他 Page ”Rank 靠 前 的 网 站 引用 ， 则 网 
页 的 重要 性 会 大 大 提高 。 与 此 同时 ， 对 搜索 流量 骏 增 或 有 大 量 新 闻 的 搜 
过 关键 词 ， 谷 歌会 在 新 的 查询 结果 中 增加 额外 的 Page ”Rank 权 值 ， 以 作 
为 趋势 分 析 。 人 谷歌 经 过 初步 查询 ， 结 果 的 排序 、 剔 除 、 过 滤 ， 最 终 返 回 
给 浏览 器 端 用 户 的 ， 是 一 个 人 性 化 的 、 布 局 良好 的 、 碍 询 结 果 和 广告 泾 
渭 分 明 的 有 机 查询 结果 页 面 。 


构造 知识 图 谱 数 据 。2012 年 ， 谷 歌 推 出 了 知识 图 谱 ， 所 谓 知识 图 
谱 ， 简 而 言 之 就 是 深度 挖掘 搜索 词 潜在 的 知识 关系 ， 以 呈现 更 结构 化 的 
搜索 结果 。 从 杂乱 无 章 的 网 页 到 结构 化 的 实体 知识 ， 搜 索引 擎 可 以 通过 
知识 图 谱 为 用 户 提供 更 具 条 理 的 信息 ， 甚 至 顺 着 知识 图 谱 可 以 探索 更 深 
入 、 广 泛 和 完整 的 知识 体系 ， 让 用 户 发 现 他 们 意 想不到 的 知识 。 谷 歌 知 
识 图谱 是 在 知识 管理 过 程 中 ， 为 应 对 海量 知识 检索 挑战 ， 由 谷歌 公司 提 
出 并 构建 的 基于 语义 网 络 三 的 大 规模 知识 库 。 基 于 本 体 和 语义 网 技术 ， 
谷歌 知识 图 谱 通过 描述 现实 世界 中 的 各 种 实体 及 其 复杂 关系 ， 将 多 种 异 


构 的 知识 库 关 联 起 来 ， 并 构建 基于 图 的 统一 的 结构 化 语义 网 络 知 识 库 ， 
在 此 基础 上 实现 智能 检索 和 知识 推理 。 


如 果 未 来 的 搜索 引擎 是 机 器 人 的 大 脑 ， 那 么 知识 图 谱 则 是 这 个 大 脑 
的 知识 库 ， 任 何 决策 都 依赖 此 知识 库 。 知 识 图 谐 是 搜索 引擎 能 够 进行 答 
案 寻 找 、 实 时 对 话 、 信 息 预 测 的 数据 基础 ， 它 是 一 次 从 信息 时 代 进 入 知 
识 时 代 的 音 命 性 变化 ， 知 识 图 谱 将 成 为 未 来 智能 机 器 的 “智慧 之 库 、 机 
器 之 心 ”。 三 知识 图 谱 是 通过 大 数据 提炼 出 的 数据 库 ， 其 构建 让 搜索 引 
擎 变 得 更 加 聪明 。 知 识 图 谱 用 图 的 结构 描述 着 真实 世界 中 的 万 千 实 体 与 
实体 关系 ， 是 现代 搜索 引擎 智能 化 程度 的 体现 ， 它 不 仅仅 是 一 次 技术 的 
更 新 ， 更 是 下 一 代 搜 索引 擎 的 基础 。 知 识 图 谱 通过 知识 发 现 、 知 识 推 
理 、 知 识 计算 、 知 识 聚 类 等 将 里 一 的 知识 串联 为 信息 价值 ， 不 断 完善 知 
识 图 谱 体 系 结构 ， 实 现 知 识 图 谱 价 值 最 大 化 ， 使 得 知识 图 谱 最 大 限度 地 
为 不 同人 群 服务 。 


谷歌 让 搜索 引擎 更 加 智能 。 几 个 世纪 以 前 是 数据 为 王 的 时 代 ， 如 果 
你 识字 、 可 以 阅读 ， 如 果 你 是 那个 知道 事实 最 多 的 人 ， 你 在 这 个 世界 上 
就 拥有 巨大 的 优势 。 现 在 的 世界 已 经 改变 ， 通 晓 多 少 事 似乎 不 再 重要 ， 
只 要 轻 襄 几 下 键盘 ， 你 就 能 得 到 想 要 了 解 的 一 切 数据 ， 但 今天 ， 还 有 比 
这 更 重要 的 事 ， 那 就 是 如 何 利 用 这 些 数据 。 如 何 将 片段 数据 集中 起 来 并 
转化 成 有 用 的 信息 ? 如 何 将 有 用 的 信息 转化 成 知识 ， 并 最 终 转化 成 知 
营 ? 所 谓 的 将 数据 转化 成 信息 ， 指 的 是 从 原始 数据 的 海洋 中 找到 表面 相 
关联 的 事实 。 谷 歌 搜索 已 经 这 么 做 了 一 一 提取 网 页 、 视 频 、 图 像 等 原始 
数据 ， 将 它们 整理 成 与 你 的 查询 相 匹 配 的 相关 信息 。 


“ 接 下 来 ， 我 们 和 希望 能 够 提取 信息 ， 并 使 其 更 容易 消化 ， 便 于 你 更 
加 迅速 地 决定 如 何 使 用 该 信息 。 我 们 已 经 通过 “快速 回答 ;尝试 这 样 做 。 
如 果 你 询问 谷歌 “第 国 大 厦 有 多 高 ?之 类 的 问题 ， 谷 歌 将 提供 搜索 结果 页 
面 上 的 最 佳 猜想 答案 ， 将 你 链接 到 该 知识 点 。” 谷 歌 科 学 家 兼 高 级 副 总 
裁 阿 米 特 : 辛 格 哈 尔 说 。 示 来， 你 问 谷 歌 一 个 问题 ， 它 会 下 接 提 供 答 


和 案 ， 而 不 只 是 给 你 相关 的 链接 。 然 而 ， 搜 索 还 远 达 不 到 我 们 期 待 的 发 展 
水 平 。 现 有 的 搜索 技术 无 法 处 理 “ 融 有 防虫 喷 邹 的 蚊帐 是 不 是 比 不 带 防 
虫 喷雾 的 蚊帐 更 有 效 " 这 样 的 问题 。 如 果 从 未 有 人 问 过 一 模 一 样 的 问 

题 ， 那 么 就 得 不 到 理想 的 答案 。 因 为 这 类 问题 的 答案 不 仅 要 求 编写 这 些 
言 息 ， 而 且 和 需要 现实 世界 的 “实体 知识 ”， 以 及 它们 的 相互 关联 性 。 谷 歌 
搜索 的 未 来 是 从 数据 到 信息 ， 到 知识 ， 再 到 智慧 的 发 展 过 程 ， 让 搜索 引 
擎 变 得 更 加 聪明 。 


(三 ) 搜索 引擎 的 工作 原理 


“搜索 ”是 一 项 奇妙 的 革命 性 技术 ， 它 不 仪 能 帮助 人 们 实现 梦想 ， 而 
且 能 调整 人 类 的 知识 结构 。 三 搜索 引擎 所 做 的 事 远 不 止 为 我 们 找到 信 
息 ， 我 们 在 搜索 的 同时 会 发 现 许 多 从 未 见识 过 的 东西 。 三 随 着 互联 网 的 
迅 狐 发 展 ， 搜 索引 擎 已 成 为 必 不 可 少 的 工具 。 搜 索引 擎 是 指 根据 一 定 的 
策略 ， 运 用 特定 的 计算 机 程序 搜集 互联 网 上 的 信息 ， 在 对 信息 进行 组 织 
和 处 理 后 ， 将 处 理 后 的 信息 显示 给 用 户 ， 为 用 户 提供 检索 服务 的 系统 。 
三 御 索 引擎 的 主要 工作 原理 有 3 个 环节 〈 如 图 3-1 所 示 ) 。 首 先 ， 每 个 独 
立 的 搜索 引擎 都 有 目 己 的 网 页 抓 取 程序 (以 下 简称 Spider) 。Spider 顺 
着 网 页 中 的 超 链接 连续 抓 取 网 页 。 由 于 互联 网 中 超 链接 的 应 用 很 普遍 ， 
理论 上 ， 从 一 定 范围 的 网 页 出 发 ， 就 能 搜集 到 绝 大 多 数 的 网 页 。 其 次 ， 
搜索 引擎 抓 取 到 网 页 后 ， 还 要 做 大 量 的 预 处 理工 作 ， 才 能 提供 检索 服 
务 。 其 中 ， 最 重要 的 就 是 提取 关键 词 ， 建 立 索 引文 件 。 最 后 ， 用 户 输 入 
关键 词 进行 检索 ， 搜 索引 擎 从 索引 数据 库 中 找到 匹配 该 关键 词 的 网 页 。 


建立 倒 
— 


(查询 分 析 ， 
结果 融合 ) 


图 3-1 搜索 引擎 工作 原理 示意 图 


网 页 抓 取 。 我 们 得 到 搜索 结果 的 过 程 始 于 Spider。 这 是 一 种 在 互联 
网 上 从 一 个 链接 跳 到 另 一 个 链接 ， 把 它 找到 的 网 页 打包 ， 并 把 网 页 送 回 
服务 器 中 以 备 索 引 处 理 的 专用 软件 。 通 过 Spider 可 以 在 互联 网 中 搜集 指 
定 的 网 页 ， 并 放 入 数据 库 ， 网 页 的 搜集 工作 是 在 用 户 提交 碍 询 之 前 就 已 
经 预先 完成 的 。Spider 访 问 网 页 的 过 程 类 似 普通 用 户 使 用 浏览 器 访问 其 
页 面 ， 即 B/S 浏览 器 /服务 器 〉 模 式 。Spider 先 向 页 面 提出 访问 请 求 ， 
服务 器 接受 其 访问 请 求 并 返回 HTML 三 代码 后 ， 把 获取 的 HIML 代 码 存 
入 原始 页 面 数据 库 。 搜 索引 擎 使 用 多 个 Spider 分 布 疏 行 以 加 快 疏 行 速 
度 。 搜 索引 擎 的 服务 器 遍布 世界 各 地 ， 每 台 服务 器 都 会 派出 多 个 Spider 
同时 抓 取 网 页 。 那 么 ， 如 何 做 到 一 个 页 面 只 访问 一 次 ， 从 而 提高 搜索 引 
擎 的 工作 效率 呢 ? 


在 抓 取 网 页 时 ， 搜 索引 擎 会 建立 两 张 不 同 的 表 ， 一 张 表 记录 已 经 访 
问 过 的 网 站 ， 男 一 张 表 记录 没有 访问 过 的 网 站 。 当 Spider 抓 取 某 个 外 部 
链接 页 面 UREL 三 的 时 候 ， 需 把 该 网 站 的 URL 下 载 回 来 分 析 。 在 Spider 全 
部 分 析 完 这 个 URL 后 ， 将 这 个 URL 存 入 相应 的 表 中 ， 这 时 当 别 的 Spider 
从 其 他 网 站 或 页 面 又 发 现 这 个 URL 时 ， 它 会 对 比 看 看 已 访问 列表 中 有 没 
有 ， 如 果 有 ，Spider 会 自动 丢弃 该 URL， 不 再 访问 。Spider 还 要 注意 网 


页 上 能 找到 的 每 一 个 链接 ， 并 把 它们 排列 到 请 求 文档 中 ， 然 后 发 送 更 多 
的 请 求 给 这 些 新 发 现 的 链接 ， 再 通过 这 些 链接 找到 更 多 的 链接 。 这 个 过 
程 周 而 复 始 。Spider 是 利用 HTML 文 档 之 间 的 链接 关系 进行 网 页 抓 取 

的 。 以 一 个 或 若干 个 URL 为 入 口 地 址 ， 对 网 页 中 的 超 链接 进行 抓 取 ， 并 
将 网 页 中 的 所 有 和 链接 加 入 待 访问 的 URL 列 表 中 ， 随 后 对 已 经 抓 取 下 来 的 
网 页 进行 内 容 提 取 、 关 键 字 处 理 等 工作 。 


信息 检索 。 为 了 便于 用 户 在 数 万 亿 级 别 以 上 的 原始 网 页 数据 库 中 快 
速 便 捷 地 找到 搜索 结果 ， 搜 索引 擎 必须 对 Spider 抓 取 的 原始 网 页 做 预 处 
理 。 网 页 预 处 理 的 主要 过 程 是 先 为 网 页 建立 全 文案 引 ， 之 后 分 析 网 页 ， 
最 后 建立 倒 排 文 件 运行 匹配 。 网 页 分 析 有 以 下 步骤 : 判断 网 页 类 型 ， 衡 
量 其 重要 程度 、 丰 富 程 度 ， 对 超 链 接 进行 分 析 、 分 词 ， 把 重复 网 页 去 
掉 。 


经 过 搜索 引擎 分 析 处 理 后 ， 网 页 已 经 不 再 是 原始 的 网 页 页 面 ， 而 是 
浓缩 成 能 反映 页 面 主题 内 容 、 以 词 为 单位 的 文档 。 数 据 索 引 中 结构 最 复 
杂 的 是 建立 索引 库 ， 索 引 又 分 为 文档 。 每 个 网 页 唯一 的 文档 号 是 由 文档 
索引 分 配 的 ， 每 个 单词 出 现 的 次 数 、 位 置 、 大 小 格式 都 可 以 根据 词 的 序 
列 号 在 网 页 中 检索 出 来 ， 最 终 形成 文档 号 的 数据 列表 。 倒 排 索 引 的 形成 
过 程 是 这 样 的 ; 搜索 引擎 用 分 词 系 统 将 文档 目 动 切 分 成 单词 序列 ， 赋 了 予 
每 个 单词 唯一 的 单词 编号 ， 记 录 包 含 这 个 单词 的 文档 。 倒 排 索 引 是 最 简 
单 的 ， 实 用 的 倒 排 索 引 还 需 记 载 更 多 的 信息 。 在 单词 对 应 的 倒 排列 表 
中 ， 除 了 记录 文档 编号 外 ， 单 词 频率 信息 也 被 记录 进去 ， 便 于 以 后 计算 
碍 询 和 文档 的 相似 度 。 


查询 服务 。 在 搜索 引擎 界面 输入 关键 词 ， 点 击 “ 搜 索 ” 按 钮 之 后 ， 搜 
索引 擎 程序 首先 对 搜索 词 进行 以 下 处 理 : 分 词 处 理 ， 根 据 情况 判断 整合 
搜索 是 否 需 要 启动 ， 找 出 错别字 和 拼写 中 出 现 的 错误 ， 把 停止 词 去 挥 。 
其 次 ， 搜 索引 擎 程序 便 把 包含 搜索 词 的 相关 网 页 从 索引 数据 库 中 找 出 ， 
并 且 对 网 页 进行 排序 ， 按 照 一 定 的 格式 返回 到 “搜索 "页面 。 碍 询 服务 最 


核心 的 部 分 是 搜索 结果 排序 ， 其 决定 了 搜索 引擎 的 质量 好 坏 及 用 户 满意 
度 。 影 响 实际 搜索 结果 排序 的 因素 很 多 ， 最 主要 的 因素 之 一 是 网 页 内 容 
的 相关 上 度 。 


影响 关键 词 相关 性 的 主要 因 系 包括 如 下 5 个 方面 。 一 是 关键 词 第 用 
程度 。 经 过 分 词 后 的 多 个 关键 词 ， 对 整个 搜索 字符 串 的 意义 页 献 并 不 相 
同 。 二 是 词 频 及 密度 。 通 常情 况 下 ， 搜 索 词 的 密度 和 其 在 页 面 中 出 现 的 
次 数 成 正 相 关 ， 次 数 越 多 ， 说 明 密 度 越 大 ， 页 面 与 搜索 词 天 系 越 密 切 。 
三 是 关键 词 位 置 及 形式 。 关 键 词 出 现在 越 重要 的 位 置 ， 如 标题 标签 、 黑 
体 等 ， 说 明 页 面 与 关键 词 越 相 关 ， 在 索引 库 的 建立 中 提 到 的 ， 页 面 关键 
词 出 现 的 格式 和 位 置 都 被 记录 在 索引 库 中 。 四 是 关键 词 距离 。 关 键 词 极 
切 分 之 后 ， 如 果 匹 配 地 出 现 ， 就 说 明 其 与 搜索 词 相 关 程 度 较 强 。 比 
如 , “搜索 引擎 ”在 页 面 上 连续 完整 地 出 现 或 者 “搜索 "和 “引擎 ”出 现 的 时 
候 距 离 比较 近 ， 都 和 被 认为 其 与 搜索 词 “ 搜 索引 擎 ”相关 。 五 是 链接 分 析 及 
页 面 权重 。 页 面 之 间 的 链接 和 权重 关系 也 影响 关键 词 的 相关 性 ， 其 中 最 
重要 的 是 锚 文 字 ， 页 面 有 越 多 以 搜索 词 为 锚 文字 的 导入 链接 ， 说 明 页 面 
的 相关 性 越 强 。 
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HTML， 即 超级 文本 标记 语言 ， 超 级 文本 就 是 指 页 面 内 可 以 包含 图 片 、 链 接 ， 其 至 音 


乐 、 程 序 等 非 文 字 元 素 。 


URL， 即 统一 资源 定位 符 ， 是 对 可 以 从 互联 网 上 得 到 的 资源 的 位 置 和 访问 方法 的 简 


洁 表 示 ， 是 互联 网 上 标 ; 


全 资源 的 地 址 。 


和 A 一 十 二 


条 和 二 他 
搜索 引擎 到 人 工 智能 的 终极 演进 


(一 ) 全 局 化 范围 搜索 


数据 搜索 是 激活 数据 学 中 的 准备 阶段 ， 古 块 数据 系统 依据 茶 种 信和 号 
组 织 相关 数据 的 一 种 行为 。 三 数据 搜索 延续 了 传统 搜索 引擎 的 原理 和 各 
种 技术 ,但 是 搜索 范围 更 全 面 ， 强 调 的 是 对 所 有 关联 数据 的 搜索 ， 描 述 
的 是 从 海量 数据 中 通过 搜索 实现 关联 数据 聚集 的 过 程 。 此 过 程 实现 了 从 
孤立 数据 到 全 局 数据 汇聚 ， 为 接 下 来 激活 数据 学 所 强调 的 数据 处 理 环节 
提供 尽 可 能 完整 的 数据 资源 基础 ， 以 确保 处 理 结 果 的 准确 性 ， 防 止 出 现 
数据 价值 分 析 挖 据 的 谨 点 。 


关联 数据 体系 。 关 联 数据 ， 即 由 号 份 和 行为 数据 聚合 而 产生 的 数 
据 ， 反 映 和 发 现 人 与 事 、 事 与 物 之 间 的 关联 大 系 。 三 整个 关联 数据 体系 
中 包括 强 关 联 、 关 联 、 弱 关联 及 潜在 关联 的 数据 ， 甚 至 还 包含 当前 并 不 
关联 ， 但 在 未 来 可 能 会 发 生 关 联 的 数据 。 当 然 ， 关 联 数 据 体系 中 的 数据 
并 不 是 一 成 不 变 的 ， 新 的 数据 会 不 断 加 入 ， 过 时 的 数据 需要 修改 或 删 
除 ， 数 据 之 间 的 链接 也 应 随 之 变化 。 数 据 激 活 需 要 通过 数据 搜索 实现 整 
个 关联 数据 体系 的 建立 ， 搜 索 的 结果 包括 所 有 关联 数据 体系 中 的 数据 。 
因此 ， 激 活 数 据 学 所 指 的 数据 搜索 结果 更 加 全 面 。 


目前 的 搜索 引擎 大 多 采用 的 是 语法 层级 搜索 ， 搜 索 匹 配 大 多 是 机 械 
性 的 检索 ， 这 种 搜索 不 仅 需要 提供 用 户 需 要 的 准确 、 有 用 的 数据 ， 而 且 
种 币 需要 多 条 类 似 的 数据 。 因 此 ， 传 统 的 搜索 引擎 越 用 难以 满足 人 工 智 
能 时 代 的 数据 搜索 需求 。 激 活 数据 学 中 的 数据 搜索 利用 搜索 关联 策略 搜 


集 整 理 数据 ， 基 于 关联 数据 体系 进行 搜索 ， 这 种 搜索 强化 了 针对 茶 一 天 
联 数 据 的 相关 收录 及 更 新 ， 减 少 了 搜索 中 涉及 的 大 量 无 用 数据 ， 碍 询 搜 
索 的 效率 极 高 ， 能 够 快速 整理 出 分 类 细致 、 准 确 、 人 全面、 具备 时 效 性 的 
搜索 列表 。 这 样 就 改善 优化 了 相似 的 其 他 检索 工具 在 数据 搜索 上 的 功 
能 ， 具 有 先进 的 优势 ， 其 搜索 操作 具有 一 定 的 智能 性 ， 运 行 得 出 的 数据 
结果 不 管 是 查 准 率 还 是 履 善 面 都 非常 出 色 。 


从 数据 到 数 聚 。 传 统 搜索 方式 的 混杂 、 无 序 、 模 糊 等 特点 ， 导 致 搜 
索 结 果 的 数据 质量 堪忧 。 一 旦 搜索 到 的 数据 质量 不 高 ， 就 很 容易 导致 错 
误 的 场景 重 现 和 错误 的 映像 ， 出 现 错误 的 连接 以 致 形成 错误 的 决策 。 仅 
仅 体 量 大 ， 而 不 能 使 数据 之 间 打 破 体系 ， 互 相 流动 验证 ， 是 不 够 的 。 孤 
立 数据 的 价值 远 远 小 于 全 局 的 、 广 泛 连接 的 数据 价值 。 分 散 的 数据 孤 
岛 ， 体 系 与 体系 间 、 了 映像 与 映像 间 都 没有 关联 。 这 需要 打破 体系 间 的 界 
限 ， 让 数据 产生 关联 ， 从 而 导 问 更 深度 的 洞察 。 全 局 数据 是 在 大 数据 基 
础 上 的 升级 和 目 我 进化 。 从 理论 上 来 说 ， 大 量 数据 的 集成 可 以 映射 出 客 
观 世 界 的 部 分 ， 形 成 一 个 个 数据 体系 。 体 系 中 包含 一 个 个 映像 ， 这 古 不 
同体 系 根 据 不 同 需求 对 客观 世界 的 数据 化 抽象 和 沉积 。 二 


油 活 数据 学 中 的 数据 搜索 ， 实 现 了 在 关联 数据 体系 的 基础 上 从 孤立 
的 “数据 ?到 全 局 数据 的 “汇聚 ?过 程 。 在 块 数据 中 ， 流 动 数据 占 全 样本 数 
据 的 比例 越 大 ， 从 数据 到 数 聚 的 过 程 束 越 有 可 能 建立 连接 并 发 现价 值 。 
三 同样 ， 激 活 数据 学 中 的 数据 搜索 通过 数据 的 流动 找到 关联 数据 。 首 
先 ， 数 据 搜 索 会 对 进入 的 源 数据 进行 识别 ， 初 步 确 定数 据 的 可 用 性 ;其 
次 ， 数 据 搜 索 会 确定 关联 数据 集成 转换 的 规则 ;， 最后， 数据 搜索 可 进行 
关联 数据 的 质量 评价 。 此 外 ， 搜 索 会 受到 经 验 关 联 的 影响 ， 经 验 关 联 可 
以 理解 为 既往 的 数据 流动 路 径 。 这 个 路 径 可 以 是 系统 预先 设 定 的 ， 也 可 
以 是 数据 流动 过 程 中 目 发 形成 的 。 


精准 匹配 。 信 息 的 海量 供给 与 人 们 的 个 性 化 信息 需求 之 间 的 匹配 始 
终 是 一 大 难题 。 过 去 ， 搜 索引 擎 作为 一 种 初级 形态 ， 需 要 人 提供 关键 


词 ， 然 后 搜索 引擎 从 数 百 亿 个 网 页 中 找 出 相关 的 搜索 结果 示人 。 基 于 激 
活 数据 学 的 数据 搜索 不 是 漫 无 目的 地 追求 大 而 全 的 数据 《因为 大 数据 追 
求 的 “N 三 所 有 ”的 全 样本 是 无 法 实现 的 ， 同 时 大 数据 样本 非但 不 能 解决 
样本 偏差 问题 ， 反 而 引发 了 大 量 的 小 数据 问题 ， 其 所 搜索 到 的 数据 更 
加 重视 筛选 过 的 有 价值 的 数据 。 本 质 上 ， 诉 活 数据 学 中 的 数据 搜索 是 对 
人 力 最 大 化 的 替代 ， 更 高 效 地 帮助 查询 者 将 “人 脑 智 能 ?匹配 到 合适 的 信 
恩 。 在 这 个 意义 上 ， 基 于 激活 数据 学 的 数据 搜索 是 人 类 命令 的 “执行 
者 ”， 以 高 速 的 数据 挖掘 、 分 析 能 力 辅 佐 人 类 完成 理性 决策 。 


激活 数据 学 中 的 数据 搜索 使 人 工 智 能 不 断 修 正 对 人 们 真实 需求 的 判 
上 条 ， 从 而 提升 搜索 的 精准 程度 。 按 照 人 工 知 能 的 机 需 学 习 理 论 ， 通 过 大 
量 的 输入 输出 训练 ， 让 智能 机 器 发 现 规律 ， 掌 握 每 个 行动 的 结果 ， 然 后 
根据 这 些 行动 结果 的 排列 组 合 ， 不 断 完善 内 部 算法 和 数学 模型 ， 建 并 内 
部 及 馈 机 制 。 当 智能 机 器 接收 到 输入 数据 时 ， 可 以 研判 这 个 输入 数据 在 
当前 条 件 下 可 能 出 现 的 结果 和 每 个 结果 的 优 务 ， 然 后 根据 智能 机 器 内 在 
的 目的 性 退 求 ， 做 出 最 适合 的 选择 和 决策 。 因 此 ， 从 激活 数据 学 理论 
看 ， 更 全 面 、 更 优质 的 关联 数据 不 仅 可 以 帮助 人 类 更 好 地 发 挥 主观 能 动 
性 ， 制 定 更 加 精准 、 富 有 智慧 的 决策 ， 挖 所 数据 背后 的 规律 ， 而 且 可 以 
驱动 智能 机 需 的 自身 进化 和 升级 。 


(二 ) 智能 化 目标 识别 


传统 的 数据 搜索 是 被 动 的 ， 往 往 需 求 在 前 、 搜 索 在 后 ， 这 种 搜索 方 
式 已 无 法 满足 万 物 互联 时 代 从 海量 信息 中 快速 搜索 到 用 户 所 需 数据 。 基 
于 激活 数据 学 的 数据 搜索 结合 新 一 代 人 工 智 能 技术 ， 摆 脱 了 传统 搜索 引 
擎 的 局 限 性 ， 更 加 乔 能 化 ， 更 具 主 动 性 ， 提 供 多 元 化 的 搜索 方式 ， 为 用 
户 提供 个 性 化 定制 服务 ， 更 好 地 满足 用 户 的 个 性 需求 。 激 活 数据 学 中 的 
数据 搜索 是 目 发 性 的 ， 智 能 程度 达到 了“ 走 一 步 ， 想 十 步 ?， 会 在 分 析 前 
期 关联 的 基础 上 ， 预 见 性 地 进行 自主 搜索 ， 为 更 为 精准 的 预 判 搜集 全 面 


的 数据 资源 。 


主动 关联 。 激 活 数据 学 强调 ， 通 过 海量 数据 的 相互 碰撞 ， 激 发 价 
值 ， 以 远 超 人 脑 运 转速 度 的 服务 器 时 速 ， 目 动 在 信息 之 间 、 数 据 之 间 建 
构 关 联 ， 带 来 人 类 脑力 尚 难 企及 的 理性 分 析 结 果 ， 提 供 预测 、 预 和 警 ， 帮 
助人 类 在 生产 生活 中 做 出 更 明智 的 决策 ， 开 局 人 工 智能 新 时 代 。 搜 索引 
获 的 本 质 是 怒 接 人 脑 智能 和 单 类 信息 的 桥梁 工具 ， 故 而 必然 依赖 人 类 手 
动 的 和 输入， 必然 受 限 于 人 脑 的 思维 。 人 类 对 大 数据 智能 的 需求 、 追 求 ， 
远 非 传统 搜索 引擎 可 以 满足 。 比 如 在 节假日 ， 我 们 想 知 道 计划 前 往 的 景 
区 是 否 人 满 为 患 ， 搜 索引 擎 可 以 间接 帮助 我 们 ， 前 提 是 需要 有 人 事先 发 
布 过 景区 的 图 片 、 文 字 。 我 们 得 到 的 信息 往往 因 沛 后 而 失真 ， 如 宁 没 有 
他 人 的 分 译 ， 我 们 便 无 法 实现 经 验 的 获取 。 


数据 搜索 需要 面 对 的 是 网 络 中 浩如烟海 的 数据 ， 每 天 还 有 无 数 信息 
在 不 断 注入 。 基 于 激活 数据 学 的 数据 搜索 可 以 将 多 个 搜索 的 数据 进行 整 
合 ， 作 为 一 个 整体 存放 到 关联 数据 体系 的 数据 库 中 ， 并 进行 融合 和 目 我 
深度 学 习 。 机 器 对 数据 的 认识 越 来 越 全 面 ， 数 据 的 已 知 特征 维度 越 来 越 
丰富， 有 助 于 更 快 、 更 精准 地 搜索 到 目标 主体 。 例 如 ， 在 节假日 ， 基 于 
油 活 数据 学 的 数据 搜索 可 以 通过 关联 数据 体系 中 的 数据 碰撞 ， 整 合 景 区 
周边 交通 运行 情况 、 车 位 使 用 情况 、 天 气 情况 、 门 票 出 售 情况 等 相互 分 
散 的 数据 ， 给 予 我 们 一 个 直接 、 明 确 、 即 时 的 答复 。 激 活 数据 学 的 数据 
搜索 能 解析 多 种 复杂 搜索 请 求 ， 准 确 判 断 用 户 真 正 的 需求 ， 提 升 智能 设 
备 等 多 端的 搜索 能 力 ， 对 移动 场景 进行 有 机 聚合 ， 并 结构 化 地 呈现 精准 
的 信息 内 容 。 


自发 搜索 。 机 器 学 习 与 人 类 学 习 的 最 大 差别 在 于 ， 前 者 需要 大 量 数 
据 作为 “ 助 推 咒 *。 数 据 的 输入 源 目 机 右 对 数据 的 主动 搜索 ， 在 数据 量 不 
中 以 应 对 新 的 任务 时 ， 机 器 学 习 该 如 何 应 对 呢 ? 这 就 离 不 开机 絮 的 主动 
搜索 。 基 于 激活 数据 学 的 数据 搜索 能 够 更 多 地 发 挥 主动 搜索 数据 的 作 
用 ， 目 发 提高 其 对 关联 数据 挖掘 、 推 理 和 联想 的 精度 ， 实 现 准确 理解 用 


户 的 属性 、 状 态 、 兴 趣 、 情 感 状态 等 信息 。 根 据 目 然 语 言 处 理 能 力 ， 解 
析 多 种 复杂 搜索 请 求 ， 准 确 判断 用 户 真 正 的 需求 ， 提 升 理 解 的 准确 度 和 
效率 。 根 据 结 果 不 断 更 新 关联 数据 体系 ， 运 用 大 数据 进行 挖掘 、 抽 取 、 
清洗 、 融 合 、 关 联 、 推 理 ， 从 信息 碎片 中 深度 挖掘 数据 关联， 将 无 序数 
据 转 化 为 蝇 效 关联 数据 ， 为 机 器 提供 更 准确 、 符 合 需 求 的 关联 数据 。 


基于 激活 数据 学 的 数据 搜索 引擎 呈现 出 智能 化 、 个 性 化 、 场 景 化 和 
交互 便捷 化 的 发 展 趋势 。 一 是 搜索 请 求 的 理解 方式 ， 从 传统 的 文字 识别 
器 图 像 识别 、 音 频 识 别 、 视 频 识别 等 多 模 态 上 自然 语言 处 理 转变 。 二 是 主 
流 搜 索 终 端 设 备 ， 从 电脑 端 同 移动 终端 (手机 、 平 板 电 脑 、 可 穿戴 设备 
等 ) 泛 化 。 三 是 搜索 方式 ， 由 传统 的 网 页 输入 问 基 于 位 置 的 场景 化 自动 
感知 拓展 ， 使 搜索 服务 无 处 不 在 ， 搜 索引 擎 成 为 不 可 或 缺 的 用 户 助手 。 
四 是 搜索 结果 的 呈现 技术 ， 从 传统 的 网 页 排名 技术 癌 智 能 化 感知 用 户 需 
求 的 用 户 导 回 撤 术 过 渡 ， 能 够 个 性 化 、 知 能 化 、 高 效 化 地 展示 信息 流 。 
激活 数据 学 的 数据 搜索 能 构建 内 容 生态 服 务 体系 ， 从 传统 的 “ 即 搜 即 
得 、 即 搜 即 用 ?到 现在 的 智能 化 感知 用 户 需求 的 “不 搜 即 得 ?和 个 性 化 的 
数据 流 。 


智能 识别 。 人 们 每 天 都 在 使 用 搜索 引擎 ， 得 到 的 结果 也 与 人 工 智 能 
机 需 学 习 的 能 力 相 关 。 搜 索 的 演进 同样 促进 着 人 工 智 能 的 发 展 。 从 标题 
搜索 到 分 词 搜索 ， 再 到 如 今 的 知识 图 谱 ， 搜 索 一 直 在 试图 从 海量 信息 中 
第 选 出 最 符合 人 们 需求 、 最 有 价值 的 那 部 分 信息 。 人 们 为 机 絮 建 六 了 能 
模拟 人 脑 进行 分 析 、 学 习 的 神经 网 络 ， 以 模仿 人 脑 的 机 制 来 解释 图 像 、 
声音 和 文本 等 数据 。 人 工 智 能 的 深度 学 习 能 力促 使 其 不 断 修 正 对 人 们 真 
实 需 求 的 判断 ， 从 而 提升 搜索 的 精准 程度 。 三 在 人 工 乔 能 时 代 ， 基 于 激 
活 数据 学 理论 ， 智 能 机 器 的 语音 识别 、 图 像 识别 等 识别 能 力 得 到 迅速 提 
升 ， 综 合 了 语 首 、 图 像 、 上 自然 语言 处 理 等 多 种 技术 ， 能 与 人 进行 多 轮 智 
能 交流 ， 能 针对 移动 场景 对 搜索 数据 进行 有 机 聚合 。 


以 人 脸 识 别 为 例 ， 每 个 人 的 相貌 ， 用 程序 去 描述 非常 困难 ， 而 采用 


深度 学 习 的 方法 ， 在 建立 数学 模型 后 ， 只 要 把 人 脸 照 片 放 进去 ， 告 诉 智 
能 机 絮 这 张 照 片 对 应 的 名 字 是 什么 ， 在 大 量 数 据 的 基础 上 ， 它 就 能 目 动 
提取 特征 ， 把 复杂 的 物理 图 片 抽象 成 机 器 智能 能 异 的 特征 。 再 如 ， 在 图 
像 识别 方面 ， 对 人 们 用 手机 随便 拍摄 的 普通 照片 ， 人 工 智 能 不 仅 能 说 出 
照片 中 的 颜色 ， 而 且 能 以 “多 轮 交 互 ?的 方式 像 人 一 样 基于 之 前 的 语 境 接 
受 退 问 ， 进 而 快速 识别 照片 是 在 哪里 拍摄 的 。 基 于 深度 学 习 系统 ， 智 能 
机 器 学 习 了 海量 的 帝 有 地 理 位 置 标签 的 照片 ， 可 以 基于 记忆 库 进 行 位 置 
识别 。 未 来 ， 在 人 工 智 能 时 代 ， 运 用 激活 数据 学 理论 与 搜索 技术 的 结 

合 ， 智 能 机 器 的 识别 能 力 一 定 会 比 人 类 好 ， 人 让 机 器 更 聪明 ， 机 器 使 人 
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(三 ) 无 界 化 协同 感知 


人 类 不 仅仅 有 理性 ， 还 有 感性 ， 人 类 获取 自由 的 关键 ， 就 是 对 感性 
的 控制 能 力 。 毫 无 疑问 ， 智 能 机 器 具有 理性 分 析 能 力 ， 在 分 析 数 据 、 构 
建 规则 方面 的 能 力 是 很 强 的 ， 但 是 在 感性 方面 ， 智 能 机 器 还 存在 一 定 难 
度 ， 大 部 分 机 器 学 习 系 统 仍然 容易 被 复杂 的 场景 或 物体 迷惑 。 = 基于 激 
活 数据 学 理论 ， 智 能 机 器 能 主动 感知 人 体 状态 或 环境 信息 ， 并 积累 一 些 
感情 触发 动作 或 理性 行为 的 逻辑 ， 从 而 获得 对 人 体 行为 和 环境 的 准确 巴 
测 与 研判 。 此 过 程 中 ， 数 据 搜索 真正 实现 了 人 机 交互 从 有 限 到 无 界 的 转 
变 。 


人 机 智能 融合 。 简单 地 说 ， 人 机 智能 融合 就 是 充分 利用 人 和 机 器 的 
优势 形成 一 种 新 的 智能 形式 ， 三 是 人 、 机 、 环 境 系统 相互 作用 而 产生 的 
新 型 人 机 融合 乔 能 系统 。 一 般 而 言 ， 任 何 智 能 都 是 从 数据 输入 开始 的 ， 
对 人 而 言 数据 束 是 各 种 刺激 〈 眼 、 耳 、 具 、 百 、 吴 ) ， 对 机 絮 而 言 束 是 
各 种 传感器 采集 到 的 各 种 数据 。 数 据 是 相对 客观 的 ， 而 从 中 提 炬 出 有 价 
值 的 数据 音 恩 却 是 相对 主观 的 ， 信 息 已 经 开始 带 有 人 的 价值 观 、 偏 


好 倾向 和 风俗 习惯 。 随 着 万 物 互联 时 代 的 语音 、 语 言 交 互 ， 人 类 的 智 臣 
得 以 在 后 台 进 行 碰撞 、 比 对 ， 相 互 局 发 、 获 得 灵感 ， 届 时 我 们 的 群体 知 
能 会 上 一 个 巨大 的 人 台阶。 要 想 使 计算 机 走 进 人 的 世界 ， 就 必须 赋予 计算 
机 人 一 样 的 心理 认 知 能 力 ， 能 够 根据 人 的 行为 举止 对 其 心理 状态 进行 合 
理 推 师 ， 理 解 人 的 行为 和 意图 ， 从 而 保证 高 效 、 自 然 、 和 谐 的 人 机 交 
互 。 


电影 《黑客 帝国 》 和 《 阿 凡 达 》 中 用 意识 来 控制 虚拟 世界 的 “化 
吴 ”， 俄 罗斯 “2045 未 来 世界 大 会 ”上 未 来 学 家 预测 科学 家 将 于 2020 年 通 
过 脑 机 接口 实现 用 意识 控制 机 器 人 。“ 脑 机 接口 ?技术 是 一 种 研究 如 何 用 
神经 信号 与 外 部 机 械 直 接 交 互 的 技术 ， 采 集 大 脑 皮质 神经 系统 活动 产生 
的 脑 电 信号 ， 经 过 放大 、 滤 波 等 方法 ， 将 其 转化 为 可 以 被 计算 机 识别 的 
言 号 ， 从 中 辨别 人 的 真实 意图 。 三 激活 数据 学 理论 中 ， 结 合 人 工 智能 技 
术 ， 通 过 神经 成 像 获 取 的 人 脑 结构 和 功能 成 像 数 据 ， 机 器 将 会 对 人 的 思 
维 意识 进行 实时 准确 识别 ， 并 对 搜索 到 的 人 体 信息 进行 深度 学 习 与 特征 
分 析 ， 揭 示人 类 视觉 、 语 音 处 理 、 图 像 识 别 、 语 言 交 流 等 其 他 技术 难以 
发 现 的 规律 和 现象 。 比 如 ， 通 过 脑 机 接口 能 使 有 运动 残障 及 情态 、 行 为 
和 思维 障碍 的 人 得 到 治疗 。 脑 机 接口 是 连接 人 脑 与 现实 世界 的 桥梁 之 
一 ， 一 方面 有 助 于 电脑 更 加 了 解 人 脑 活动 特征 ， 以 指导 电脑 更 好 地 模仿 
人 脑 ， 另 一 方面 可 以 让 电脑 更 好 地 与 人 协同 工作 。 


人 机 交互 多 模 态 感知 。 随 着 人 工 智 能 的 发 展 ， 人 机 交互 的 未 来 必然 
征 人 体 各 种 感官 的 智能 延伸 工具 与 人 体感 官 深度 结合 ， 智 能 硬件 利用 视 
觉 、 听 觉 、 触 党、 嘿 沉 等 感知 的 数据 或 信息 将 最 终 实现 人 工 智 能 的 感应 
形态 ， 构 建成 人 机 多 模 态 交互 方式 。 多 模 态 融合 了 视觉 、 听 觉 、 触 

自觉 等 交互 方式 ， 其 表达 效率 和 表达 的 信息 完整 度 要 优 于 传统 单一 
的 交互 模式 。 三 然而 ， 传 统 的 人 机 交互 模式 中 ， 大 多 是 单一 单 癌 的 交互 
方式 ， 尤 其 是 多 轮 人 机 对 话 ， 涉 及 语音 理解 、 语 义 分 析 、 情 感 分 析 、 动 
作 捕 捉 等 多 个 维度 。 例 如 ， 网 上 大 多 数 图 片 、 音 频 和 视频 是 通过 元 数据 
搜索 到 的 ， 即 通过 手动 搜索 关键 词 进行 查找 。 因 此 ， 有 必要 开发 能 够 像 


人 一 样 上 自动 识别 图 片 、 音 频 和 视频 的 传 感 系 统 ， 让 机 需 能 够 理解 现实 世 
界 所 发 生 的 一 切 ， 并 延伸 至 人 类 的 感知 功能 。 


进入 人 工 智 能 时 代 ， 人 机 间 无 界 交 互 能 力 为 机 器 感知 增加 了 从 多 维 
度 主动 获取 关联 数据 的 能 力 ， 如 同 所 有 动物 的 感知 系统 ， 脱 离 交 互 的 感 
知 ， 其 获取 信息 的 能 力 古 非常 有 限 的 。 所 有 智能 的 产生 都 与 刺激 和 数据 
密切 相关 ， 上 所谓 刺 激 ， 就 是 人 感知 到 的 外 部 的 映射 。 这 里 的 数据 是 机 器 
接触 到 的 外 部 的 输入 ， 并 产生 相应 的 融合 、 理 解 ， 进 而 进行 相应 的 反应 
和 规划 。 三 数据 搜索 为 机 口上 自动、 方便、 快捷 获取 关联 数据 偶 定 了 基 
础 ， 乔 能 感知 的 结果 感觉 更 像 与 人 类 进行 区 流 ， 不 仅 是 搜索 ， 而 且 可 能 
市 来 深入 交流 ， 最 终 使 人 类 与 乔 能 机 器 的 界限 不 断 模 糊 、 融 合 ， 从 而 改 
变 人 类 ， 强 大 乔 能 机 器 ， 两 者 共同 缔造 一 个 全 新 的 社会 和 世界 。 


三 元 空间 协同 感知 。 我 们 生活 在 一 个 信息 日 益 活 跃 的 人 、 机 、 环 境 
(自然 、 社 会 ) 系统 中 ， 指 挥 控制 系统 目 然 就 是 通过 人 、 机 、 环 境 三 者 
之 间 交 互 及 其 信息 的 输入 、 处 理 、 输 出 、 上 反馈 来 调节 正在 进行 的 主题 活 
动 ， 进 而 减少 或 消除 结果 不 确定 性 的 过 程 。 人 工 智 能 时 代 ， 世 界 将 变 得 
越 来 越 复 杂 ， 需 要 分 析 才 能 理解 其 复杂 性 。 基 于 激活 数据 学 理论 ， 在 
人 、 机 、 环 境 系 统 相互 作用 而 产生 的 新 型 人 机 融合 智能 系统 中 ， 机 器 能 
够 拥有 类 似 人 眼 和 人 耳 等 感官 的 功能 ， 使 得 机 器 和 人 类 之 间 、 机 器 和 环 
境 之 间 的 沟通 能 够 像 人 和 人 及 人 和 环境 之 间 的 沟通 一 样 自 然 。 作 为 人 类 
体能 、 智 能 和 感知 的 延伸 ， 机 器 不 再 局 限于 一 些 简 单 的 流水 线 任务 或 完 
全 被 动 地 受 人 类 控制 ， 而 是 能 在 一 些 复 全 、 非 结构 化 其 至 危险 的 环境 中 
发 挥 主导 作用 。 


随 独 人 工 智能 的 快速 发 展 ， 在 人 工 镶 能 的 愿景 中 ， 至 少 应 该 实 
现 “ 类 人 服务 、 超 人 感知 ”的 愿景 ， 即 以 类 人 的 方式 服务 人 类 目 身 ， 以 超 
人 的 方式 感知 外 部 世界 。 从 人 类 的 视角 看 ， 未 来 人 工 智 能 理应 在 感官 和 
思维 上 像 人 ， 从 机 器 的 视角 看 ， 未 来 人 工 智 能 应 该 能 理解 人 的 行为 和 情 
绪 。 传 统 社会 是 一 个 二 元 空间 ， 人 类 社会 和 物理 空间 形成 互 训 关 系 。 在 


类 人 社会 ， 人、 机 、 物 三 者 相互 融合 ， 形 成 一 个 三 元 空间 。 未 来 ， 人 工 
智能 可 进行 人 、 机 、 物 信息 的 整合 ， 以 超越 人 类 的 精度 和 时 空 尺度 ， 感 
知 三 元 空间 的 信息 关联 性 〈 如 图 3-2 所 示 ) 。 三 通过 激活 数据 学 理论 中 
的 数据 搜索 ， 能 让 机 器 在 三 元 空间 中 自主 搜索 、 智 能 感知 自身 和 外 界 环 
境 信息 ， 为 机 器 做 出 更 加 精准 的 预 判 搜集 全 面 、 关 联 的 数据 资源 。 

超人 感知 、 类 人 服务 类 人 智能 


em 


大 数据 + 超级 计算 机 计算 学 习 
图 3-2 未 来 人 工 智能 的 发 展 愿景 
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第 四 章 


天 联 融 合 : 智能 


在 智能 搜索 获得 的 数据 集中 ， 需 要 处 理 的 数据 可 能 来 目 不 同 数据 
域 、 不 同 数据 源 ， 同 时 还 具有 不 同 的 数据 形式 。 传 统 的 数据 关联 融合 处 
理 的 是 单一 数据 域 中 的 问题 ， 在 处 理 海 量 、 多 源 、 异 构 数 据 上 还 多 有 不 
足 。 人 类 思维 本 质 上 是 信息 加 工 工程 。 人 脑 是 目 然 界 中 最 复杂 、 最 高 效 
的 信息 处 理 系统 。 从 人 脑 整合 不 同感 官 之 间 的 信息 模式 出 发 ， 激 活 数据 
学 提出 一 种 新 的 方法 体系 一 一 数据 跨 界 关联 融合 。 


关联 融合 是 这 一 新 方法 体系 中 承接 数据 智能 搜索 之 后 的 重要 坏 市 ， 

通过 对 搜索 出 来 的 模糊 结果 数据 集 进行 降 维 去 噪 、 关 联 识 别 、 跨 界 重 
购 ， 深 度 挖掘 数据 的 显 性 价值 与 隐 性 价值 ， 形 成 相对 精确 的 埋 和 数据 
集 。 如 果 说 搜索 获得 的 数据 是 荡 茫 大 海中 的 孤岛 ， 激 活 数据 学 中 的 关联 
融合 要 做 的 就 是 借 力 新 思维 、 新 技术 的 不 断 创新 和 开发 ， 开 尽 海 上 新 航 
道 ， 在 互 不 相连 的 岛屿 之 间 建 立新 的 联系 ， 实 现役 此 的 互联 互通 ， 从 而 
进行 价值 的 交换 或 者 重 构 。 探 寻 多 源 数据 之 间 的 关联 关系 ， 运 用 跨 界 思 
维 将 同一 主体 的 数据 整理 融合 或 许 是 未 来 智能 数据 处 理 的 新 思路 和 关键 
环 衣 。 


» 第 一 三 二 
人 脑 信息 的 处 理 与 融合 


大 脑 是 人 和 其 他 鲁能 生命 系统 的 基本 需 官 ， 对 多 源 信 息 进 行 整合 ; 
形成 有 效 信息 是 其 具备 的 基本 功能 ， 人 类 可 以 目 发 地 将 号 体 感官 所 感知 
到 的 信息 结合 大 脑 的 记忆 单元 存储 的 相关 信息 进行 融合 处 理 ， 进 而 形成 
对 表象 世界 精确 的 描述 和 表达 。 现 实生 活 中 ， 数 不 清 的 人 类 行为 需要 大 
脑 整合 和 短期 适时 存储 各 种 感觉 信息 才能 完成 ， 如 思考 数学 题 、 视 说 弹 
苍 、 在 键盘 上 打字 等 都 是 需要 人 脑 进行 多 个 阶段 过 程 信息 的 感知 和 整合 
才能 完成 的 行为 。 人 脑 对 信息 的 融合 过 程 与 “数据 汇集 和 预 处 理 ” 相 似 ， 
在 这 个 过 程 中 提取 多 源 信息 的 有 用 信息 并 对 其 进行 融合 ， 主 要 分 为 对 象 
感知 、 和 情景 关联 和 信息 融合 三 个 阶段 。 


(一 ) 对 象 感 知 


人 脑 内 部 是 一 个 极度 复杂 的 系统 ， 按 照 维度 可 以 分 为 物理 结构 分 区 
和 功能 结构 分 区 。 功 能 结构 分 区 由 三 个 基本 机 能 联合 区 构成 ， 这 三 个 基 
本 机 能 联合 区 完成 了 人 脑 对 信息 进行 感知 、 关 联 及 融合 的 过 程 。 


人 脑 认 知 原理 。 人 脑 的 三 个 基本 机 能 联合 区 分 别 为 第 一 基本 机 能 联 
合 区 、 第 二 基本 机 能 联合 区 、 第 三 基本 机 能 联合 区 。 每 个 机 能 联合 分 区 
共有 三 级 皮质 区 : 一 级 皮质 区 是 外 围 冲动 接收 区 ， 或 者 是 冲动 从 这 里 出 
发 去 外 围 ， 二 级 皮质 区 负责 对 信息 进行 加 工 ; 三 级 皮质 区 是 大 脑 两 半球 
最 后 发 展 的 器 官 ， 在 这 里 进行 许多 皮质 区 域 的 复杂 协同 活动 《如 图 4-1 
所 未) 


人 脑 
第 一 基本 机 能 第 二 基本 机 能 第 三 基本 机 能 
联合 区 联合 区 联合 区 


信息 流 问 
图 4-1 人 脑 机 能 分 区 图 


第 一 基本 机 能 联合 区 包括 网 状 结构 、 间 脑 和 大 脑 皮 质 内 部 。 在 这 一 
机 能 联合 区 调节 紧张 和 觉醒 状态 ， 触 发 从 各 个 感官 通道 输入 的 开关 控 
制 ， 对 接收 的 外 界 刺激 进行 皮质 调节 。 第 二 基本 机 能 联合 区 位 于 大 脑 两 
半球 后 半 部 分 ， 包 括 视觉 区 、 听 党 区 和 一 般 感 觉 区 及 相应 的 皮质 下 组 
织 。 在 这 一 机 能 联合 区 对 外 来 的 信息 进行 加 工 和 存储 ， 主 要 以 一 级 皮质 
区 为 基础 ， 在 二 级 皮质 区 处 理 信 息 加 工 和 编码 ， 在 三 级 皮质 区 完成 高 级 
抽象 和 经 验 保存 。 第 三 基本 机 能 联合 区 的 特点 与 第 二 基本 机 能 联合 区 类 
似 ， 只 是 神经 信息 在 层次 结构 上 的 传播 方向 相反 。 


情景 感知 。 人 脑 通 过 身体 感官 获取 外 界 信 息 ， 经 过 大 脑 内 部 的 整合 
处 理 最 后 形成 对 外 界 的 认 知 ， 这 一 阶段 形成 的 信息 存储 在 第 一 基本 机 能 
联合 区 。 神 经 元 是 人 脑 感知 外 界 信息 最 主要 的 途径 ， 神 经 元 之 间 的 联结 


主要 由 突 触 实现 ， 突 触 是 神经 元 之 间 信 息 转 换 的 关键 结构 。 在 人 脑 获 取 
信息 信号 之 后 ， 由 树 突 和 胞 体 接收 输入 信和 号， 并 传送 相应 的 信和 号 给 轴 
突 ， 突 触 接触 信号 之 后 便 触 发 释放 出 化 学 递 质 ， 传 入 下 一 个 神经 元 ， 以 
这 样 的 方式 在 神经 元 之 间 完 成 信息 的 传递 。 


神经 元 通过 突 触 将 来 目 不 同 神经 元 的 信息 进行 汇聚 加 工 再 传递 ， 从 
而 进行 传导 、 调 市 和 控制 。 信 息 通 过 无 数 个 突 触 进 行 传递 ， 在 传递 过 程 
中 也 不 免 接受 每 个 突 触 的 加 工 和 整合 ， 通 过 反复 不 断 的 处 理 ， 信 息 的 内 
容 也 随 之 不 断 丰 语 和 完善 。 通 过 神经 元 与 神经 元 或 非 神经 元 以 茶 种 方式 
互相 联结 成 的 复杂 神经 网 络 ， 形 成 具有 复杂 的 线性 和 非 线 性 的 反馈 联结 
关系 ， 以 完成 对 真实 世界 的 表达 。 例 如 ， 味 党 需 官 获取 事物 的 味道 ， 视 
觉 吉 官 反映 事物 的 色彩 、 轮 廓 ， 触 觉 器 官 反 映 事物 的 状态 ， 等 等 ， 人 脑 
在 获取 这 些 信息 之 后 对 其 进行 整合 处 理 ， 从 而 恢复 对 客观 世界 的 真实 表 
达 。 


(二 ) 情景 天 联 


在 “情景 关联 ?层次 ， 大 脑 对 多 通道 的 特征 进行 汇聚 ， 对 目标 对 象 进 
行 绑 定 、 元 余 特 征 的 曙 除 等 处 理 。 当 大 脑 获 取 的 信息 量 到 一 定 程 度 的 时 
候 ， 大 脑 中 心 会 从 数量 转向 质量 ， 对 系统 中 最 弱 的 连接 进行 定期 清理 ， 
同时 去 除 存在 缺陷 的 神经 元 。 它 用 质量 来 交换 数量 ， 并 对 挑选 出 来 的 有 
效 信息 进行 一 定 的 关联 ， 在 无 须 扩 大 容量 的 情况 下 ， 使 我 们 拥有 的 信息 
更 有 价值 。 


主体 通过 主动 获取 客体 的 信息 并 对 其 信息 进行 加 工 ， 最 终 形成 对 客 
体 的 客观 认识 。 因 此 ， 通 过 大 脑 对 信息 的 处 理 ， 原 来 互相 孤立 、 隔 离 的 
言 息 建 并 起 了 一 定 的 关联 关系 ， 甚 至 还 可 以 感知 到 如 时 间 和 空间 等 无 法 
为 感觉 所 感知 的 东西 ， 提 取 了 更 为 有 效 的 价值 信息 。 同 时 ， 人 们 还 借助 
抽象 的 思维 方式 ， 在 收集 整理 大 量 基础 性 资料 的 基础 上 ， 发 现 事 物 发 展 


的 本 质 、 内 部 联系 及 规律 性 等 。 通 过 对 信息 的 关联 分 析 ， 透 过 现象 看 到 
了 事物 的 本 质 ， 和 破解 了 感官 获取 信息 的 局 限 性 ， 属 于 认识 过 程 的 质 的 改 
跃 。 


在 对 信息 进行 情景 关联 处 理 时 ， 人 脑 将 获取 的 感官 信息 通过 第 一 基 
本 机 能 联合 区 继续 传播 至 第 二 基本 机 能 联合 区 ， 第 二 基本 机 能 联合 区 对 
应 脑 区 大 多 属于 感觉 联合 皮质 。 根 据 大 脑 皮质 的 三 级 分 层 结构 ， 感 觉 器 
官 获得 的 信息 首先 到 达 第 一 级 区 ， 在 经 由 具备 高 度 特异 性 神经 元 选择 之 
后 ， 信 息 传 递 至 第 二 级 区 。 


第 二 级 区 的 神经 元 模式 特异 性 较 弱 ， 联 系 神 经 元 占 优势 ， 在 这 一 部 
分 对 东 一 特定 感觉 器 官 的 信息 进行 整合 ， 提 取 了 元 余 和 缺乏 关联 的 特征 
后 ， 这 些 特征 通过 不 同 的 渠道 传递 至 第 三 级 区 ， 在 此 皮质 区 域 ， 特 征 会 
进行 融合 和 统一 表达 ， 或 者 称 为 特征 的 “ 配 准 关联 ”"。 将 经 过 配 准 关联 的 
特定 感官 信息 作为 标准 对 相应 的 第 一 基本 机 能 联合 区 中 包含 的 特定 目标 
信息 进行 检测 ， 检 测 到 目标 之 后 ， 在 注意 机 制 相关 脑 区 的 协助 下 向 感觉 
器 官 发 出 特定 指令 ， 对 目标 进行 跟踪 。 需 要 强调 的 是 ， 这 种 在 第 二 基本 
机 能 联合 区 和 注意 机 制 相关 脑 区 进行 的 目标 跟踪 是 不 需要 人 的 主观 意识 
的 。 


在 第 三 级 区 ， 这 些 信息 经 过 多 模式 神经 元 的 合成 处 理 形成 特定 的 感 
觉 景象 ， 并 将 感官 信息 的 投射 转变 为 大 脑 皮 质 内 部 的 组 织 活动 。 经 过 第 
三 级 区 的 处 理 ， 获 取 的 特征 集 变 得 更 加 精准 简约 ， 各 特征 之 间 的 关联 关 
系 也 得 以 进一步 加 强 。 


额 叶 是 人 脑 第 三 基本 机 能 联合 区 特殊 而 重要 的 一 个 部 分 ， 是 人 脑 对 
言 恩 进 行 天 联 融合 的 关键 。 在 大 脑 的 进化 史上 ， 额 叶 是 最 后 出 现 的 部 


分 ， 构 造 也 最 为 复杂 ， 它 的 面积 几乎 占 了 大 脑 皮 质 的 12。 其 对 信息 的 
整合 传播 过 程 除 了 具有 人 脑 第 二 基本 机 能 联合 区 描述 的 普遍 特性 外 ， 还 
有 上 自己 更 重要 的 功能 。 


第 三 基本 机 能 联合 区 最 大 的 特点 是 不 仅 与 人 脑 的 下 部 和 网 状 组 织 相 
联系 ， 与 大 脑 皮 质 的 所 有 其 他 外 表 部 分 都 有 联系 ， 而 且 与 第 二 基本 机 能 
联合 区 信息 传递 方 同 反 同 而 行 ， 其 信息 传递 方 回 是 从 局 级 到 低级 、 从 上 
到 下 的 。 第 三 基本 机 能 联合 区 与 大 脑 皮 质 所 有 的 外 表 部 分 都 有 联系 ， 由 
此 ， 其 可 以 与 多 个 感官 的 大 脑 挛 质 投影 区 进行 互动 ， 将 接收 的 单 感官 信 
县 综合 形成 多 感官 信息 ， 在 这 里 完成 多 源 异 质 信 息 融 合 过 程 。 


人 脑 是 并 行 工作 的 。 处 理 同 一 个 任务 的 神经 元 可 能 有 很 多 个 ， 如 视 
党 画面 由 数 百 万 个 神经 元 同时 处 理 ， 每 个 神经 元 只 负责 处 理 一 个 地 方 的 
一 种 颜色 信息 ， 所 有 视神经 合 在 一 起 处 理 一 幅 彩 色 的 图 像 。 同 一 个 任务 
所 涉及 的 信息 可 以 从 一 个 处 理 场所 同时 传输 到 为 一 个 处 理 场 所 ， 有 扣 儿 
像 计算 机 中 的 并 行 传输 ， 只 是 并 行规 模 比 计算 机 中 的 要 大 得 多 。 担 任 相 
同 任务 或 目的 地 相 邻 的 传输 神经 纤维 常常 合并 在 一 起 组 成 粗大 的 神经 
束 ， 也 就 是 神经 解剖 中 的 白质 ， 神 经 束 到 目的 地 后 再 分 散 到 达 各 自 的 目 
标 ， 从 而 形成 规模 巨大 、 有 规律 的 信息 传输 通道 。 这 种 工作 特点 和 点 对 
点 直接 传导 的 特性 使 脑 中 信息 的 表示 方法 与 计算 机 中 的 不 一 样 ， 在 计算 
机 中 一 根 线路 可 以 传递 不 同 的 信息 ， 所 以 相同 类 型 但 内 容 不 一 样 的 信息 
用 不 同 的 数字 表示 ; 在 人 脑 中 相同 类 型 的 信息 可 以 用 同一 种 神经 冲动 及 
放 模 式 表示 ， 而 用 不 同 的 传输 来 源 区 别 。 


人 脑 信息 融合 是 实时 动态 发 生 的 。 同 步 放 电机 制 认 为 ， 信 息 融 合 不 
征 由 特定 的 神经 元 表征 的 ， 而 主要 是 由 神经 元 冲动 发 放 过 程 中 的 时 间 关 
系 表征 的 。 在 没有 信息 融合 的 状态 下 ， 不 同 的 神经 元 都 是 独立 活动 的 。 
当 不 同 的 神经 元 活动 过 程 时 间 一 致 的 时 候 ， 即 为 需要 进行 信息 融合 的 时 
候 ， 这 种 活动 过 程 中 的 时 间 一 致 性 可 以 作为 信息 融合 的 表征 。 源 信息 发 
生变 化 时 ， 融 合 形 成 的 信息 也 随 之 发 生 相 应 变化 ， 因 此 ， 这 种 信息 的 融 


合 是 动态 的 。 例 如 ， 选 购 住 房 是 一 个 人 的 大 脑 对 多 方 信 息 进 行 采集 、 篇 
选 、 关 联 、 融 合 之 后 形成 决策 的 过 程 ， 如 采用 人 工 智 能 来 实现 这 个 决策 
过 程 ， 分 析 过 程 是 对 之 前 输入 的 信息 根据 重要 程度 的 不 同 赋予 不 同 的 权 
重 ， 进 而 进行 数据 融合 分 机 ， 最 后 输出 的 可 能 是 一 个 完全 基于 理性 思考 
得 出 的 答案 。 但 人 在 选 购 住房 的 过 程 中 ， 人 脑 在 反复 进行 信息 融合 和 决 
朱 这 个 过 程 ， 通 过 不 断 融 合演 化 的 数据 信息 及 不 断 地 修正 错误 决策 ， 最 
终 做 出 最 大 限度 地 符合 用 户 需 求 的 实时 、 动 态 的 决定 。 相 比 人 工 智 能 在 
特定 时 间 根 据 特定 输入 信息 得 到 的 决策 ， 人 脑 体现 了 信息 处 理 的 更 高 级 
的 形态 。 


第 二 下 
入 能 数据 处 理 


大 数据 时 代 ， 数 据 爆发 增长 、 海 量 集 聚 ， 数 据 类 型 和 模式 多 样 、 关 
联 关 系 楷 杂 ， 数 据 呈 现 出 大 规模 、 多 源 异 构 、 路 领域 、 路 行业 、 路 语 
言 、 实 时 联动 等 特征 ， 数 据 之 间 的 关系 变 得 千 丝 万 缕 ， 数 据 间 相 互 杂 
乱 、 无 序 的 关联 、 交 叉 和 融合 给 数据 存储 、 分 析 与 处 理 带 来 极 大 的 挑 
战 。 大 数据 乃至 超 数据 时 代 ， 如 何 将 海量 数据 间 杂 乱 、 无 序 的 关联 、 交 
又 和 融合 智能 聚合 ， 形 成 有 序 化 、 结 构 化 的 块 数 据 ， 是 激活 数据 的 前 
提 ， 也 是 释放 数据 价值 的 关键 。 


(一 ) 大 数据 融合 处 理 模 式 


数据 融合 是 一 种 针对 多 个 来 源 的 数据 综合 分 析 处 理 的 技术 。 三 在 多 
源 数 据 融合 系统 中 ， 通 过 模仿 人 脑 处 理 复杂 信息 过 程 ， 各 类 数据 源 提供 
的 多 源 信息 与 数据 可 能 具有 各 不 相同 的 特征 ， 而 这 些 特征 也 是 多 样 的 ， 
可 能 是 相互 文 持 或 互补 的 、 确 定 或 者 模糊 的 ， 还 有 可 能 是 冲突 政 盾 的 ， 
具有 差异 性 。 在 获取 数据 源 后 ， 通 过 有 效 蜂 选 ， 把 它 在 时 空 上 互补 和 元 
余 的 数据 按照 菏 种 组 合 规则 进行 优化 处 理 ， 多 方位 、 多 层次 的 数据 化 处 
理 后 获得 对 监测 目标 的 理解 、 认 知 及 更 多 有 价值 的 信息 ， 并 且 获 得 比 它 
的 各 个 部 分 所 构成 的 系统 更 高 质量 的 性 能 ， 作 为 最 后 协同 作用 的 结果 。 
多 源 数据 融合 技术 能 够 在 多 层次 上 综合 处 理 不 同类 型 的 信息 和 数据 ， 处 
理 的 对 象 可 以 是 属性 、 数 据 、 证 据 等 。 按 照 数 据 抽 象 程度 ， 可 以 分 为 数 
据 级 融合 、 特 征 级 融合 和 决策 级 融合 三 种 模式 。 


数据 级 融合 。 数 据 级 融合 属于 数据 融合 的 第 一 层 ， 该 层 在 探测 到 的 
量 汕 或 经 过 简单 预 处 理 后 直接 进行 融合 〈 如 图 4-2 所 示 ) 。 这 种 融合 的 
好 处 是 可 以 提供 现场 原始 信息 ， 也 是 其 他 两 种 层次 融合 无 法 实现 的 ， 但 
其 局 限 性 也 很 明显 。 例 如 ， 由 于 处 理 的 数据 量 大 ， 计 算 处 理 时 间 长 ， 系 
统 的 实时 性 和 抗 干扰 能 力 不 强 ， 由 于 原始 数据 不 完全 和 不 稳定 ， 霸 有 民 
好 的 纠 错 能 力 ， 且 各 数据 源 数据 类 型 需 来 源 于 同 质 类 型 以 达到 其 校准 精 
读 与 配 准 关系 。 通 闻 用 于 多 源 图 像 复合 和 基于 卡尔 曼 滤 小 三 的 多 源 数据 
融合 方法 等 方面 。 

数据 源 1 


融合 的 号 份 识别 


图 4-2 数据 级 融合 


特征 级 融合 。 特 征 级 融合 是 第 二 层 数 据 融合 。 这 一 层 需要 先 对 数据 
做 提取 特征 处 理 ， 再 对 数据 进行 综合 分 析 与 融合 (如 图 4-3 所 示 〉。 一 
般 情 况 下 ， 把 像素 信息 的 充分 统计 量 作为 提取 要 求 的 特征 数据 ， 接 着 按 
照 该 统计 量 对 多 源 数据 做 处 理 ， 包 括 分 类 、 聚 集 与 综合 。 其 优点 在 于 有 
助 于 增强 处 理 的 实时 性 ， 融 合 结果 中 包含 的 特征 数据 对 决策 判断 具有 重 
要 作用 。 由 其 不 同 源 分 成 特性 与 状态 融合 两 种 ， 前 者 为 特征 层次 联合 识 
别 ， 有 基体 方法 主要 有 k 阶 最 近邻 分 类 算法 三、 特征 压缩 聚 类 法 与 神经 网 
络 等 ， 属 于 模式 识别 范畴 ;后 者 主要 使 用 的 算法 或 理论 有 交互 式 多 模型 
法 、 多 假设 法 、 联 合 概率 数据 关联 和 序 贯 处 理 理论 等 ， 较 多 体现 在 目标 
跟踪 领域 上 。 


数据 源 1 


融合 的 号 份 识别 


图 4-3 特征 级 融合 


决策 级 融合 。 决策 级 融合 是 最 高 层次 的 数据 融合 ， 该 层 所 得 结果 对 
目标 状态 进行 判断 决策 ， 为 指挥 控制 决策 提供 实时 、 合 理 、 有 效 的 依 
据 。 对 每 个 数据 源 都 需要 进行 预 处 理 、 特 征 提 取 、 识 别 与 判决 等 具体 步 
又 ， 形 成 对 量 测 目 标的 初步 判断 ， 接 着 进行 决策 级 融合 判断 ， 获 得 综合 
判断 结果 《〈 如 图 4-4 所 示 ) 。 该 结果 作为 三 级 融合 结果 ， 直 接 影 响 决 策 
水 平 。 因 此 ， 决 策 级 融合 是 以 具体 决策 需求 为 出 发 点 ， 在 选用 合适 融合 
技术 的 同时 有 效 结合 上 一 级 提供 的 各 量 测 特征 数据 ， 呈 现 关 于 目标 的 简 
明 直 观 结果 的 过 程 。 雇 策 级 融合 的 优点 和 缺点 恰好 与 数据 级 融合 相反 。 
主要 缺点 是 传感器 在 局 部 完成 的 预 处 理 代 价 高 ， 数 据 信 息 处 理 效果 比较 
依赖 预 处 理 阶 段 的 性 能 。 主 要 优点 是 融合 中 心 处 理 代价 低 ; 数据 交互 量 
小 ， 有 较 强 的 抗 干 扰 能 力 ;， 容错 性 能 好 ， 当 有 传感器 出 现 异 党 情况 时 ， 
选用 适当 融合 算法 ， 可 将 影响 降 到 最 小 。 决 策 级 融合 常 采 用 的 方法 有 
D-S 证 据 理论 三 、 模 糊 推 理 理 论 和 专家 系统 等 。 


数据 源 1 中 号 份 判 诀 


数据 源 2 人 身份 判决 


融合 的 里 份 识别 


数据 源 N 身份 判决 
图 4-4 决策 级 融合 


(二 ) 数据 融合 处 理 局 限 


数据 融合 充分 利用 多 数据 源 的 优势 ， 通 过 对 不 同 数据 有 效 关 联 和 融 

， 把 不 同 数据 源 在 衬 :间或 时 间 上 的 元 余 或 互补 信息 ， 依 据 茶 种 准则 进 
行 组 合 ， 以 获得 被 测 对 象 的 一 致 性 解释 和 描述 ， 增强 了 数据 分 析 的 有 效 
性 和 高 价值 性 ， 能 有 效 消 除 单 个 数据 源 的 局 限 性 。 但 是 ， 多 源 数据 融合 
的 应 用 仍然 存在 一 定 的 局 限 性 。 


多 源 数据 融合 结果 并 不 能 代 蔡 单一 高 精度 数据 源 测量 结果 。 尽 管 多 
数据 源 的 组 合 可 以 增强 块 数据 系统 的 健壮 性 ， 但 这 些 数据 源 并 不 一 定 能 
检测 到 系统 所 感 兴趣 的 理想 特征 值 。 例 如 ， 列 车 运行 过 程 中 ， 列 车 的 载 
重 情 况 、 运 行 速度 、 振 动 特性 等 数据 为 列车 轮 系 工 作 状 态 的 诊断 提供 了 
极为 重要 的 参考 信息 ， 但 这 些 数 据 无 法 下 接 给 出 轴瓦 的 工作 温度 ， 采 用 
一 个 温度 传 感 絮 直接 测量 温度 反而 要 简单 易 行 得 多 。 


多 源 数据 融合 处 理 不 可 能 修正 预 处 理 或 单数 据 源 处 理 时 的 错误 。 也 
就 是 说 ， 下 一 级 的 数据 融合 处 理 不 能 弥补 上 一 级 处 理 过 程 中 造成 的 信息 
损失 。 当 信号 的 特征 没有 被 正确 提取 时 ， 数 据 融 合 得 到 的 结论 肯定 是 错 
误 的 ， 数 据 融 合 不 可 能 修正 这 些 特征 。 例 如 ， 在 管道 泄漏 检测 中 ， 如 果 
负 压 波 信号 中 泄漏 发 生 的 时 间 特 征 点 没有 准确 获得 ， 泄 漏 定位 的 准确 性 
就 无 法 得 到 保证 ， 其 他 的 技术 措施 如 时 间 对 准 、 流 量 平衡 等 都 不 可 能 改 
变 这 种 结果 。 


多 源 数据 融合 模型 的 不 准确 将 导致 融合 结果 错误 ， 这 种 错误 在 后 续 
处 理 中 是 无 法 修复 的 。 例 如 ， 利 用 光 吸 收 机 理 测 量 粉 侍 时 ， 无 法 建立 粒 
子 扩 寸 、 构 成 、 浓 度 等 与 光 吸 收 特性 关系 的 数学 模型 ， 而 是 利用 现场 标 
定 的 方法 确定 光 吸 收 程度 与 粉尘 浓 度 之 间 的 关系 ， 0 
融合 技术 都 无 法 改变 。 实 际 上 ， 对 处 于 复杂 观测 环境 〈 如 复杂 
境 ) 的 传感器 数据 ， 用 模型 来 准确 融合 和 描述 
的 。 


多 源 数据 融合 算法 的 选择 和 设计 缺乏 统一 规范 ， 使 数据 融合 系统 的 


设计 带 有 一 定 的 盲目 性 。 由 于 数据 来 源 不 同 ， 一 种 单一 的 融合 算法 可 能 
难以 实现 预期 的 融合 效果 ， 往 往 需 要 综合 各 门 学 科 的 多 种 技术 ， 如 信号 
处 理 、 图 像 处 理 、 模 式 识别 、 统 计 估计 、 自 动 推理 理论 和 人 工 智 能 等 ， 

但 数据 融合 至 今 并 未 形成 基本 的 理论 框架 和 有 效 的 广义 融合 模型 及 算 

法 ， 绝 大 部 分 工作 都 是 围绕 特定 应 用 领域 内 的 具体 问题 展开 的 。 也 就 是 
说 ， 目 前 对 数据 融合 问题 的 研究 都 是 根据 问题 的 种 类 ， 各 自 建立 直观 融 
合 准则 ， 并 在 此 基础 上 形成 所 谓 的 最 佳 融合 方案 ， 充 分 反映 数据 融合 技 
术 所 固有 的 面向 对 象 的 特点 ， 难 以 构建 完整 的 理论 体系 。 对 于 给 定 的 数 
据 如 何 选择 和 设计 合适 算法 来 进行 有 效 的 信息 融合 是 数据 融合 技术 发 展 
所 面临 的 挑战 。 


(三 ) 基于 人 脑 模 式 的 数据 关联 融合 


人 脑 是 最 好 的 块 数据 分 解 结构 和 融合 结构 。 人 脑 对 于 信息 的 关联 融 
合 是 具有 系统 性 和 层次 性 的 ， 人 脑 首先 会 将 信息 整合 成 知识 ， 其 次 将 相 
关 知 识 融 合成 一 张 张 知识 图 谱 ， 最 后 形成 一 个 巨大 的 知识 网 络 。 基 于 人 
脑 模式 的 数据 关联 融合 是 以 实现 海量 数据 的 深层 次 开发 和 利用 为 目标 ， 
综合 运用 数据 科学 、 计 算 机 科学 、 知 识 科学 等 多 学 科 的 理论 方法 ， 拟 从 
知识 组 织 的 角度 架构 探索 大 数据 关联 融合 框架 模型 ， 提 出 对 多 源 、 分 散 
重复 、 被 淹没 的 数据 资源 进行 数据 关联 融合 的 理论 框架 与 解决 方案 。 


知识 融合 流程 。 解 决 复杂 问题 的 最 佳 方法 是 将 问题 分 解 为 多 个 较 简 
单 的 问题 ， 然 后 利用 简单 知识 解决 简单 问题 ， 进 而 综合 全 面 地 认识 事物 
并 解决 复杂 问题 。 三 基于 知识 的 角度 ， 人 脑 模式 的 数据 关联 融合 过 程 同 
样 是 一 个 解决 问题 的 过 程 ， 涉 及 数据 到 知识 的 转化 、 知 识 到 再 生 知识 的 
增值 过 程 ， 这 些 过 程 需要 通过 信息 净化 、 知 识 关 联 和 推理 完成 ， 以 此 实 
现 数据 知识 化 、 知 识 有 序 化 和 知识 服务 化 的 目标 。 以 政府 数据 为 例 ， 政 
府 网 站 信息 资源 知识 融合 流程 主要 包括 知识 源 采集 与 加 工 、 知 识 抽取 与 


表示 、 知 识 融 合 与 进化 及 知识 服务 与 应 用 等 流程 (如 图 4-5 所 示 〉。 
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图 4-5 政府 网 站 信息 资源 知识 融合 流程 


知识 融合 原理 、 方 法 和 技术 。 基 于 知识 融合 的 需求 和 流程 分 析 ， 以 
面 癌 领域 决策 的 知识 服务 为 目标 ， 知 识 融 合 需要 多 项 关键 技术 和 方法 作 
为 文 撑 ， 以 为 知识 融合 框 漆 构建 提供 相关 原理 、 方 法 和 技术 文 撑 。 首 
先 ， 为 解决 知识 融合 的 体系 结构 规划 与 设计 的 问题 ， 会 涉及 知识 空间 理 
论 、 知 识 组 织 与 知识 服务 相关 理论 和 方法 等 ， 其 次 ， 为 解决 知识 融合 的 
实现 方法 的 问题 ， 会 涉及 语义 、 领 域 知 识 本 体 等 相关 方法 和 技术 ， 大 数 
据 相 关 方 法 和 技术 ， 文 本 挖掘 与 知识 发 现 理 论 和 技术 ， 可 视 化 与 人 机 交 
互 理论 和 方法 等 (如 表 4 -1 所 示 )。 

表 4 -1 知识 融合 原理 、 方 法 和 技术 


原理 、 方 法 和 技术 对 知识 融合 框架 构建 的 支撑 解决 问题 
知识 空间 理论 主要 涉及 知识 空间 多 维度 的 知识 分 类 | 知识 融合 的 体 
与 知识 管理 ， 为 框架 构建 提供 目标 导 | 系 结构 规划 与 
向 和 理论 依据 设计 


知识 组 织 与 知识 服务 相 | 从 知识 组 织 和 知识 服务 层面 为 框架 构 
关 理 论 和 方法 建 提 供 理论 依据 和 方法 来 源 


语义 、 领 域 知识 本 体 等 | 实现 领域 知识 融合 所 需 的 关键 技术 ，| 知识 融合 的 实 

相关 方法 和 技术 如 知识 抽取 、 知 识 推理 、 语 义 匹 配 | 现 方法 
等 ， 都 是 以 知识 本 体 和 语义 规则 为 基 
础 而 展开 的 

大 数据 相关 方法 和 技术 | 旨 在 从 大 数据 的 知识 挖掘 与 知识 可 视 
化 分 析 等 层面 理解 面向 知识 融合 的 基 
础 技术 问题 


文本 挖掘 与 知识 发 现 理 | 对 知识 融合 所 需要 实现 的 知识 表示 、 
论 和 技术 知识 重组 、 知 识 关 联 、 知 识 聚 类 等 过 
程 提供 底层 实现 途径 


可 视 化 与 人 机 交互 理论 | 旨 在 从 知识 表现 层面 解决 面向 领域 决 
和 方法 策 的 知识 融合 可 视 化 技术 问题 


知识 融合 体系 结构 。 多 源 数据 知识 融合 不 仅 涉及 多 方面 、 多 层次 的 
领域 知识 分 析 和 处理， 而 且 是 一 个 粗 、 细 粒度 知识 不 断 达 代 和 转换 的 过 
程 。 例 如 ， 从 网 页 数据 中 获取 知识 是 粗 粒 度 知识 向 细 粒 度 知识 的 转化 ， 
对 知识 进行 重组 、 关 联 、 聚 类 分 析 后 形成 新 的 知识 是 细 粒 度 知识 回 粗 粒 
度 知 识 的 转化 。 为 了 提高 知识 融合 过 程 中 这 些 转 化 操作 的 自 适应 性 ， 有 
必要 设 定数 据 知 识 融 合流 程 规划 与 设计 相应 的 知识 融合 体系 结构 ， 明 确 


从 知识 资源 到 知识 服务 的 知识 增值 和 知识 流动 的 知识 融合 过 程 。 多 源 数 
据 知 识 融 合体 系 结构 是 一 个 三 层 组 织 结构 ， 包 括 知 识 资 源 层 、 知 识 组 织 
层 和 知识 服务 层 。 其 中 ， 知 识 资源 层 对 各 类 数据 进行 有 序 化 处 理 ， 为 数 
据 资 源 的 知识 融合 做 好 数据 准备 ， 知 识 组 织 层 对 数据 资源 进行 知识 化 组 
织 和 知识 融合 处 理 ， 形 成 领域 决策 所 需 的 知识 ; 知识 服务 层 根据 用 户 的 
知识 需求 对 知识 组 织 层 进行 挖掘 ， 最 后 将 知识 融合 的 结果 以 可 视 化 形式 
提供 给 用 户 ( 如 图 4-6 所 示 〉。 


知识 资源 层 是 整个 知识 融合 体系 结构 的 基础 ， 通 过 各 类 数据 的 有 序 
化 过 程 形成 粗 粒度 知识 ， 为 知识 组 织 层 粗 粒 度 知识 细 化 提供 数据 来 源 ， 
是 实现 知识 融合 的 底层 数据 。 该 层 的 主要 任务 是 完成 数据 采集 ， 并 依据 
一 些 用 于 数据 资源 描述 的 元 数据 标准 对 多 源 海量 数据 进行 有 序 化 组 织 ， 
使 之 有 序 和 可 用 。 此 层 数 据 包 罗 万 象 ， 主 要 是 符 天 联 融合 的 数据 。 政 府 
网 站 信息 资源 知识 融合 中 ， 该 层 数据 主要 包括 从 政府 门户 网 站 采集 获取 
的 信息 公开 、 新 闻 工 作 、 政 策 法 规 、 统 计数 据 、 文 献 资料 、 社 会 服务 等 
栏目 中 不 同 主题 的 网 页 文本 等 ， 这 些 网 页 文本 多 是 半 结 构 化 的 HTML 格 
式 源 码 数据 ， 除 了 网 页 文本 正文 外 ， 还 包 合 一 些 噪声 数据 ， 需 要 对 网 页 
内 容 进行 去 噪 处 理 。 


语义 查询 服务 


只 链 
知识 网 络 
知识 单元 


知识 资源 层 〈 数 据 有 序 化 ) 


图 4-6 数据 知识 融合 流程 


知识 组 织 层 主要 通过 完成 知识 资源 层 的 数据 关联 ， 将 数据 资源 升格 
为 知识 资源 ， 实 现 数据 资源 内 容 的 知识 化 和 知识 再 生 。 在 知识 组 织 层 将 
利用 一 些 知 识 组 织 方 法 和 技术 ， 如 语义 网 、 知 识 本 体 等 ， 建 立 知 识 间 的 
语义 关系 ， 形 成 面向 特定 主题 的 知识 集合 。 这 些 知 识 集合 是 经 知识 融合 
再 组 织 的 知识 产品 ， 是 实现 知识 服务 的 重要 保证 。 建 立 知识 集合 首先 需 
要 将 知识 分 解 为 细 粒 度 的 知识 单元 ， 通 过 粒度 关联 和 聚 类 ， 将 若干 个 知 
识 单元 融合 形成 粒度 较 粗 的 知识 对 象 ， 再 将 多 个 不 同类 型 知识 对 象 相 互 
关联 形成 知识 网 络 ， 以 便 知识 服务 化 。 


知识 服务 层 是 实现 知识 融合 服务 的 接口 层 ， 它 根据 用 户 的 知识 需 

求 ， 运 用 知识 挖掘 技术 、 推 理 技 术 、 关 联 分 析 技 术 等 对 知识 组 织 层 的 资 
源 进行 运算 ， 为 用 户 提供 所 需 的 知识 。 知 识 服 务 层 不 仅 包 括 原 有 数据 资 
源 服务 ， 而 且 包括 知识 导航 服务 、 知 识 地 图 等 各 种 类 型 的 知识 服务 应 用 
系统 ， 同 时 还 可 以 通过 获取 用 户 对 知识 服务 系统 的 反馈 ， 进 一 步 完 善 和 
更 新 知识 融合 处 理 与 分 析 过 程 。 在 知识 服务 层 中 ， 知 识 呈 现 粗 粒度 和 细 
粒度 的 动态 性 变化 ， 经 过 粗 粒 度 知 识 细 化 和 细 粒 度 知 识 重组 等 环节 ， 形 
成 面向 领域 问题 决策 的 粗 粒度 知识 ， 并 通过 适当 方式 呈现 给 用 户 ， 最 终 
实现 知识 服务 。 


1. 王 海 额 .多 源 数据 关联 与 融合 算法 研究 [D] .无 锡 : 江南 大 学 ，2016: 6-11. 


2: 卡尔 曼 滤 波 ， 是 指 一 种 利用 线性 系统 状态 方程 ， 通 过 系统 输入 输出 观测 数据 ， 对 系 
统 状态 进行 最 优 估计 的 算法 。 由 于 观测 数据 中 包括 系统 中 的 噪声 和 干扰 的 影响 ， 最 优 估 
计 也 可 被 看 作 滤 波 过 程 。 

3. k 阶 最 近邻 分 类 算法 ， 是 一 种 理论 上 比较 成 熟 的 方法 ， 也 是 最 简单 的 机 器 学 习 算 法 之 
一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 k 个 最 相似 《〈 即 特征 空间 中 最 邻近 ) 
的 样本 中 的 大 多 数 属 于 茶 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。 

4. D-S 证 据 理论 是 登 普 斯 特 于 1967 年 首先 提出 ， 由 他 的 学 生 谢 弗 于 1976 年 进一步 发 展 起 
来 的 一 种 不 精确 推理 理论 ， 也 称 为 证 据 理论 ， 属 于 人 工 智 能 范畴 ， 最 早 应 用 于 专家 系统 

中 ， 有 具有 处 理 不 确定 信息 的 能 力 。 

5. 黄 新 平 .政府 网 站 信息 资源 多 维 语义 知识 融合 研究 LDj」 .吉林 : 吉林 大 学 ，2017: 59- 
62. 


和 A 一 十 上 


下 二 人 
数据 融合 : 构建 新 型 数据 关系 


激活 数据 学 中 的 关联 融合 是 继承 了 跨 界 融合 理论 模式 的 具体 表现 ， 
主张 数据 的 多 源 、 动 态 、 跨 界 融 合 。 关 联 融 合 处 于 激活 数据 学 中 数据 处 
理 的 第 二 个 阶段 ， 该 阶段 输出 的 数据 质量 直接 决定 了 目 激 活 阶段 和 群体 
智能 阶段 的 效率 与 质量 。 在 激活 数据 学 中 的 关联 融合 对 搜索 出 来 的 模糊 
结果 数据 集 进 行 降 维 去 品 、 关 联 识别 、 融 合 重 构 等 处 理 之 后 ， 数 据 与 数 
据 之 间 己 然 构建 了 一 种 新 型 数据 关系 。 这 种 新 型 数据 关系 有 别 于 传统 的 
数据 关系 ， 它 融合 了 数据 的 动态 演化 ， 统 一 了 数据 的 不 确定 性 ， 使 数据 
的 特征 属性 更 明显 ， 数 据 之 间 的 关联 度 更 高 ， 数 据 价 值 吓 显 ， 为 激活 数 
所 学 强调 的 上 自诉 活 阶段 输入 了 高 精度 的 数据 集 ， 降 低 数 据 处 理 成 本 ， 提 
高 数据 处 理 效率 。 


(一 ) 降 维 去 品 


降 维 去 品 是 关联 融合 过 程 的 第 一 步 ， 是 决定 数据 分 析 结 果 的 关键 步 
又 。 在 进行 数据 分 析 的 时 候 ， 我 们 经 常会 遇 到 多 个 变量 ， 而 且 在 多 数 情 
况 下 ， 多 个 变量 之 间 和 常常 存在 一 定 的 相关 性 ， 当 变量 个 数 较 多 且 变 量 之 
间 存 在 复杂 关系 时 ， 会 显著 增强 分 析 问 题 的 复杂 性 ， 这 时 就 需要 寻找 一 
种 方法 将 多 个 变量 综合 为 少数 几 个 代表 性 变量 ， 使 这 些 变 量 既 能 够 代表 
原始 变量 的 绝 大 多 数 信 息 叉 互 不 相关 ， 便 于 数据 的 建 模 与 分 析 处 理 。 降 
维 去 噪 即 根据 数据 分 析 的 需求 、 数 据 量 、 计 算 机 处 理 能 力 、 对 时 间 的 要 
求 等 多 方面 的 因素 ， 对 数据 进行 分 级 降 维 去 品 ， 又 选 出 有 效 数 据 ， 保 证 
数据 分 析 的 精确 度 。 


数据 降 维 。 数 据 激活 中 的 降 维 去 噪 包含 数据 降 维和 数据 去 噪 两 个 部 
分 ， 数 据 降 维 是 第 一 步 。 总 的 来 说 ， 降 维 分 析 算 法 的 共同 特点 是 将 模型 
中 较 多 的 维度 通过 映射 的 方法 变 成 较 少 的 维度 ， 从 而 达到 减少 计算 量 或 
改善 变量 间 关 系 的 目的 。 数 据 降 维 的 问题 可 以 按照 其 原因 分 为 四 大 类 ， 
分 别 为 降低 学 习 〈 建 模 ) 成 本 、 提 高 学 习 〈 建 模 ) 性 能 、 不 相关 维度 约 
简 和 元 余 维度 约 简 (如 图 4-7 所 示 )〉。 


数据 降 维 


、 不 天 维度 /一 A 
不 相关 维度 元 余 维 度 约 简 
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记录 约 简 属性 约 简 特征 选取 记录 选取 


样本 分 解 || 功能 分 解 属性 分 解 
| | 


图 4-7 数据 降 维 问题 的 分 类 


降低 学 习 提高 学 习 


( 建 模 ) 成 本 ( 建 模 ) 性 能 


降低 学 习 《 建 模 ) 成 本 和 提高 学 习 《 建 模 ) 性 能 可 以 进一步 分 为 记 
录 约 简 和 属性 约 简 两 个 子 问题 ， 其 中 记录 约 简 在 更 多 的 情况 下 被 具体 化 
为 样本 分 解 ， 属 性 约 人 简 则 包含 功能 分 解 和 属性 分 解 两 个 方面 。 不 相关 维 
度 约 简 和 元 余 维 度 约 简 可 以 进一步 分 为 特征 选取 和 记录 选取 两 个 子 问 
题 。 特 征 选取 的 目的 是 选取 重要 特征 。 记 录 选 取 过 程 相对 简单 ， 但 正如 
数据 集中 有 些 属 性 比 其 他 属性 重要 一 样 ， 正 确 的 选取 对 后 续 的 数据 挖掘 
结果 更 有 和 帮助。 在 了 解 了 数据 降 维 问题 类 别 之 后 ， 需 要 根据 实际 需求 选 
择 恰当 的 降 维 算法 对 其 进行 分 析 人 处 理 ， 目 前 ， 数 据 降 维 方 法 可 以 分 为 线 
性 方法 和 非 线性 方法 两 类 。 


当 数 据 集中 ， 各 个 变量 间 是 独立 无 关 的 ， 或 者 数据 为 非 线 性 时 可 在 
一 定 程度 上 用 线性 结构 近似 表达 的 时 候 ， 可 以 运用 线性 方法 对 数据 进行 
降 维 。 多 维 尺 度 法 是 一 种 将 多 维 空间 的 研究 对 象 〈 样 本 或 变量 ) 简化 到 
低 维 空间 进行 定位 、 分 析 和 归 类 ， 同 时 又 保留 对 象 间 原始 关系 的 数据 分 
析 方 法 。 主 成 分 分 析 法 与 多 维 矿 度 法 类 似 ， 是 将 多 个 变量 通过 线性 变换 
以 选 出 较 少 个 数 重 要 变量 的 一 种 多 元 统计 分 析 方 法 。 线 性 判别 分 析 法 与 
主 成 分 分 析 法 类 似 ， 是 将 高 维 的 模式 样本 投影 到 最 佳 鉴别 矢量 空间 ， 投 
影 后 保证 模式 样本 在 新 的 子 空间 有 最 大 的 类 间距 离 和 最 小 的 类 内 距离 ， 
以 达到 抽取 分 类 信息 和 压缩 特征 空间 维 数 效 果 的 数据 分 析 方法 。 独 立成 
分 分 析 法 通常 被 用 来 提取 独立 统计 成 分 ， 同 时 最 大 化 非 高 斯 特性 的 训 
量 ， 如 峰 度 和 偏 度 ， 或 者 将 交互 信息 减 到 最 少 。 


当 数 据 为 高 度 非 线性 或 强 属 性 相关 时 ， 运 用 线性 方法 对 数据 集 进行 
降 维 处 理 的 效果 并 不 是 很 理想 ， 在 这 种 情况 下 ， 需 要 用 非 线 性 方法 对 数 
据 集 进行 降 维 。 数 据 降 维 的 非 线 性 方法 有 3 种 。 一 是 局 部 线性 衣 入 算 
法 。 该 方法 基于 简单 的 几何 直观 ， 将 数据 集 的 每 个 点 都 线性 仍 入 流 形 
三 的 一 个 局 部 线性 贴 片 中 构造 低 维 空间 ， 例 如 保存 原始 数据 的 局 部 线性 
关系 。 二 是 拉 普 拉 斯 特征 映射 法 。 该 方法 基于 无 监督 学 习 流 形 的 想法 ， 
首先 在 数据 图 形 中 构建 一 个 算法 ， 其 次 从 与 这 个 算法 相 一 致 的 几 个 最 小 
特征 值 的 特征 疝 量 中 得 出 降 维 后 的 低 维 数据 集 。 三 是 扩散 映射 法 。 该 方 


法 将 每 个 数据 集 嵌入 欧 几 里 得 空间 ‘二 使 得 空间 的 欧 几 里 得 式 距离 等 于 数 
据 的 扩散 距离 。 由 扩散 映射 引起 的 各 种 各 样 的 扩散 距离 都 可 以 描述 为 数 
据 的 多 尺度 几何 结构 。 


数据 去 品 。 数 据 经 过 降 维 处 理 之 后 形成 了 特征 鲜明 、 维 数 较 低 的 数 
据 集 ， 但 因为 数据 处 理 过程 中 ， 不 同 维度 的 数据 相互 健 撞 之 后 也 许 会 产 
生 部 分 元 余 的 噪声 数据 ， 所 以 还 需要 不 断 地 对 数据 进行 去 噪 处 理 。 数 据 
去 品 的 原理 是 通过 分 析 干 扰 数据 的 产生 原因 及 存在 形式 ， 对 数据 流 的 过 
程 进行 考察 、 分 析 ， 并 总 结 出 一 些 方法 ， 将 干扰 数据 转化 成 满足 数据 质 
量 要 求 的 数据 ， 以 达到 提高 数据 质量 的 目的 。 


数据 去 噪 的 方法 主要 包括 分 箱 法 、 人 机 结合 法 和 简单 规则 库 法 。 分 
箱 法 通过 利用 属性 值 周围 的 值 平滑 属性 值 ， 这 种 方法 主要 应 用 于 数字 类 
型 的 数据 ， 对 于 中 文 文本 中 的 噪声 数据 等 并 不 十 分 适用 ; 人 机 结合 法 是 
最 简单 有 效 的 方法 ， 计 算 机 和 人 工 相 结合 检查 ， 通 过 计算 机 检测 出 可 疑 
数据 ， 然 后 人 工 干预 并 修正 数据 ， 但 是 这 种 方法 的 效率 较 低 ， 并 且 对 于 
计算 机 检测 遗漏 的 可 颖 数据 很 难 修正 ， 简 单 规则 库 法 通过 规则 约束 数 
据 ， 达 到 检测 并 修正 数据 的 效果 ， 但 是 这 种 方法 需要 建 并 规则 库 ， 并 且 
对 于 规律 性 不 强 的 数据 不 太 适 用 。 


除 此 之 外 ， 还 有 侧重 于 数据 本 里 的 表现 形式 的 处 理 方法 ， 主 要 包括 
属性 值 的 干扰 数据 检测 、 重 复数 据 检 测 和 孤立 点 检测 三 个 方面 。 属 性 值 
的 干扰 数据 检测 主要 针对 属性 错误 值 和 空 值 两 个 方面 。 属 性 错误 值 检测 
主要 采用 统计 法 、 聚 类 法 及 关联 规则 法 ， 这 些 方法 都 是 以 统计 和 总 结 规 
律 的 方式 计算 并 碍 找 错误 值 ， 进 而 修正 错误 数据 的 ; 空 值 检测 主要 采用 
人 工 填写 空缺 值 法 手工 检测 并 填写 属性 值 。 在 有 些 特 殊 情 况 下 ， 也 可 以 
使 用 属性 的 平均 值 、 中 间 值 、 最 大 值 、 最 小 值 或 更 为 复杂 的 概率 统计 函 
数值 填充 空缺 值 法 。 三 


在 现实 生活 中 ， 管 第 需要 通过 对 数据 处 理 进而 分 析出 消费 者 倾向 的 


评 佑 报告， 在 调查 消费 者 倾 问 时 ， 我 们 关心 的 问题 包括 : 哪 种 产品 卖 得 
好 ? 产品 之 间 哪 些 比较 相似 ? 哪些 顾客 更 倾 问 于 购买 哪些 产品 ? 哪些 市 
场 已 经 趋 于 饱和 ? 哪些 市 场 还 有 可 供 开 发 的 空 日 ? 这 些 问题 处 及 多 个 目 
变量 ， 如 消费 者 的 年 龄 、 消 费 者 的 收入 、 产 品 原 产 地 、 产 品 分 布 、 产 品 
价格 等 ， 这 些 变量 大 多 是 分 类 变量 ， 而 且 不 服从 正太 分 布 。 因 此 ， 简 单 
的 相关 分 析 和 回归 分 析 不 适用 于 探索 这 些 变量 之 间 的 关系 。 降 维 去 噪 处 
理 可 以 在 去 除数 据 噪声 的 基础 上 ， 将 这 些 变 量 通 过 特定 的 降 维 算法 降 至 
二 维 水 平 ， 并 在 二 维 平面 上 使 用 图 形 来 表现 变量 间 的 关系 ， 用 于 分 析 消 
费 者 的 购买 行为 与 消费 者 类 型 的 内 在 联系 ， 预 测 市 场 产 品 变化 对 消费 者 
的 影响 ， 指 导 新 产品 的 开发 。 


这 和 是 直接 运用 数据 降 维 去 噪 结果 的 案例 ， 在 激活 数据 学 中 ， 降 维 去 
噪 的 结果 可 以 根据 实际 需求 直接 运用 ， 也 可 以 和 其 他 处 理 步 又 配合 互 
补 ， 通 过 降 维 和 去 噪 两 个 步骤 对 数据 进行 初步 得 选 与 处 理 ， 为 得 到 最 准 
确 的 结果 集 提供 保障 。 


(二 ) 关联 识别 


云 脑 时 代 ， 数 据 呈 现 多 样 性 和 关联 性 ， 在 实体 识别 中 体现 为 识别 目 
标 包含 多 类 型 的 数据 对 象 ， 数 据 对 象 之 间 存 在 语义 关系 ， 比 如 引文 数据 
集 ( 涉 及 文章 、 作 者 、 会 议 等 ) 、 电 影 数 据 集 (涉及 电影 、 演 员 、 导 
演 、 电 影 公司 等 ) 等 。 这 些 数据 被 称 为 关联 的 数据 ， 使 用 传统 的 实体 识 
别 方 法 对 其 进行 处 理 ， 其 准确 性 将 会 受到 限制 ， 因 为 传统 方法 无 法 发 掘 
对 象 关系 ， 有 具有 明显 的 局 限 性 。 在 全 球 范围 内 庞大 的 数据 集群 中 ， 大 数 
据 的 关联 至 关 重 要 。 激 活 数据 学 所 研究 的 关联 识别 正 是 通过 一 系列 的 分 
析 为 数据 建立 关系 ， 从 而 发 现 规律 ， 辅 助 决策 。 


数据 关联 是 数据 库 中 存在 的 一 类 重要 的 可 被 发 现 的 知识 。 大 两 个 或 
多 个 变量 的 取 值 之 间 存 在 茶 种 规律 性 ， 就 成 为 关联 。 众 所 周知 ， 添 尔 


玛 “ 啤 酒 与 尿布 ”的 故事 是 典型 的 关联 关系 ， 通 过 对 交易 信息 进行 天 联 控 
据 ， 两 件 看 起 来 台 无 关系 的 商品 产生 了 联系 。 油 活 数 据 学 中 的 关联 分 析 
主要 包括 特征 提取 、 特 征 关 联 两 个 部 分 。 


特征 提取 。 用 于 数据 关联 分 析 的 数据 可 能 包含 数 以 百 计 的 属性 ， 其 
中 大 部 分 属性 与 分 析 任 务 不 相关 ， 是 见 余 的 。 尺 管 领域 专家 可 以 挑选 出 
有 用 的 属性 ， 但 这 可 能 是 一 项 困难 而 费时 的 任务 ， 特 别 是 当 数 据 的 行为 
不 清楚 的 时 候 。 遗 漏 相关 属性 或 留 下 不 相关 属性 是 有 害 的 ， 可 能 会 减 绥 
分 析 进 程 ， 因 此 ， 需 要 先 对 数据 进行 特征 提取 ， 提 取 数 据 中 的 有 效 特 
征 ， 降 低 数据 处 理 成 本 ， 提 高 数据 分 析 效 率 。 


特征 提取 是 通过 映射 的 方法 ， 将 高 维 的 属性 空间 压缩 为 低 维 的 属性 
空间 ， 得 到 最 小 的 属性 集 ， 使 得 数据 类 的 概念 分 布 尽 可 能 地 接近 使 用 所 
有 属性 的 原 分 布 ， 得 到 的 数据 挖掘 结果 与 所 有 特征 参加 的 数据 挖掘 结 
相近 或 完全 一 致 。 对 于 d 个 属性 来 说 ， 有 24 个 可 能 的 子 集 。 通 过 穷 举 搜 
索 找 出 属性 的 最 佳 子 集 可 能 是 不 现实 的 ， 尤 其 是 当 d 和 数据 类 的 数目 增 
加 时 ， 因 此 ， 特 征 提取 通常 使 用 压缩 搜索 空间 的 局 发 式 算法 。 


特征 提取 的 基本 启发 式 算法 包括 4 种 。 一 是 逐步 向 前 选择 。 该 过 程 
以 空 属性 集 起 始 ， 确 定 原 属性 集中 最 好 的 属性 ， 并 将 它 加 入 其 中 。 在 其 
后 的 每 一 次 迭代 ， 将 剩 下 的 原 属性 集中 最 好 的 属性 添加 到 该 集合 中 。 二 
是 逐步 向 后 删除 。 该 过 程 由 整个 属性 集 开始 ， 在 每 一 步 中 删除 尚 在 属性 
集中 最 差 的 属性 。 三 是 逐步 向 前 选择 和 逐步 向 后 删除 的 组 合 。 可 以 将 逐 
步 向 前 选择 和 逐步 向 后 删除 方法 结合 在 一 起 ， 每 一 步 选择 一 个 最 好 的 属 
性 ， 并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 四 是 决策 树 归 纳 。 决 策 树 归 
纳 构造 一 个 类 似 流程 图 的 结构 ， 其 中 每 个 内 部 结 点 表示 一 个 属性 上 的 测 
试 ， 每 个 分 枝 对 应 测试 的 一 个 结果 ， 每 个 外 部 结 点 表示 一 个 类 预测 。 在 
每 个 结 点 上 ， 算 法 选择 “最 好 ”的 属性 ， 将 数据 划分 成 类 。 当 决策 树 用 于 
属性 子 集 选择 时 ， 由 给 定 的 数据 构造 决策 树 。 不 出 现在 树 中 的 所 有 属性 
假定 是 不 相关 的 ， 出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 


这 些 方法 的 结束 条 件 可 以 不 同 。 该 过 程 可 以 使 用 一 个 度量 闵 值 来 决 
定 何 时 集 止 属性 选择 过 程 。 在 条 些 情况 下 ， 我 们 可 能 基于 其 他 属性 创造 
一 些 新 属性 。 这 种 属性 构造 可 以 帮助 提高 准确 度 和 对 高 维 数据 结构 的 理 
解 ， 例 如 根据 属性 高 度 和 宽度 增加 属性 面积 。 通 过 组 合 属性 ， 属 性 构造 
可 以 肥 现 关于 数据 属性 间 联 系 的 缺失 信息 ， 这 对 知识 发 现 是 有 用 的 。 


特征 关联 。 特 征 提 取 之 后 的 数据 单元 的 价值 得 到 了 最 大 化 的 凸显 ， 

而 数据 间 价 值 的 激活 还 需要 对 其 进行 进一步 的 关联 识别 。 关 联 可 以 分 为 
简单 关联 、 时 序 关联、 因果 关联 。 关 联 分 析 的 目的 是 找 出 数据 之 间 隐 藏 
的 关联 网 。 有 时 并 不 知道 数据 库 中 数据 的 关联 关系 ， 即 使 知道 也 是 不 确 
定 的 ， 关 联 分 析 就 是 要 发 现 数据 中 项 集 之 间 存 在 的 关联 关系 或 相关 天 

系 ， 因 此 关联 分 析 生 成 的 规则 带 有 可 信和 度 ， 以 可 信和 度 描 述 这 种 关系 的 确 
定 程 度 。 数 据 单 元 的 关联 程度 用 关联 度 来 表示 。 关 联 度 是 指 对 数据 之 间 
关联 关系 通过 相应 的 算法 进行 计算 得 出 的 值 进行 衡量 ， 得 出 的 值 越 接近 
1， 说 明 关 联 度 越 高 。 对 于 主体 表象 相似 但 实质 不 同 的 数据 关联 程度 的 
判断 有 以 下 两 种 方法 。 


一 是 属性 关联 度 度量 方法 。 目 前 出 现 了 许多 准确 而 高 效 的 相似 度 计 
算 方 法 ， 这 些 方法 又 可 以 分 为 基于 字符 的 方法 、 基 于 标记 的 方法 、 基 于 
发 首 的 方法 等 。 根 据 每 个 主体 表象 的 属性 ， 假 设 存在 一 个 基本 的 关联 度 
度量 函数 ， 其 输入 为 两 个 表象 的 属性 值 ， 输 出 为 一 个 介 于 0~1 之 间 的 值 
以 表示 其 关联 度 ， 关 联 度 值 越 高 表示 两 者 越 相 似 。 根 据 不 同 的 属性 值 类 
型 ， 可 以 选择 相应 的 关联 度 度量 方法 。 然 后 ， 对 于 不 同 的 属性 可 以 根据 
先 验 知 识 为 其 赋予 一 定 的 权 值 ， 从 而 通过 计算 各 属性 相似 度 值 的 加 权 平 
均 得 到 最 终 的 主体 表象 天 联 度 。 


二 是 关系 关联 度 度 量 方法 。 在 该 方法 应 用 的 场景 中 ， 主 体 表 象 之 间 
存在 紧密 的 联系 。 比 如 ， 在 文献 领域 ， 有 相同 研究 兴趣 的 学 者 之 间 可 能 
存在 合作 关系 ; 在 社会 关系 网 中 ， 人 们 总 是 与 志趣 相投 的 朋友 交 从 其 
密 。 这 种 主体 表象 之 间 的 同 现 关 系 ， 可 以 通过 观察 和 统计 得 到 ， 而 主体 


表象 之 间 的 紧密 联系 则 暗示 了 团体 的 存在 ， 这 些 信 息 有 助 于 我 们 判断 主 
体 表 象 的 共 指 关系 。 比 如 ， 当 两 个 作者 表象 具有 较 高 的 属性 时 ， 如 果 他 
们 又 同 处 一 个 联系 紧密 的 团体 中 ， 则 我 们 基本 可 以 判断 这 两 个 作者 是 同 
一 个 作者 。 因 此 ， 通 过 上 度量 潜在 团体 的 连接 紧密 程度 ， 有 助 于 主体 统 
一 ， 这 里 将 这 种 紧密 程度 作为 主体 表象 关系 关联 度 的 度量 标准 。 


关联 识别 在 现实 生活 中 的 应 用 十 分 广泛 ， 各 个 行业 、 各 个 领域 都 可 
以 运用 激活 数据 学 中 的 关联 识别 挖掘 出 多 回 的 数据 价值 ， 从 而 做 出 更 符 
合 社 会 发 展 规律 、 推 动 社会 进步 的 决策 。 以 我 们 熟悉 的 银行 业 的 客户 管 
理 为 例 ， 在 获取 客户 阶段 ， 整 合 客 户 的 多 方 数据 集成 相应 的 用 户 数据 
库 ， 通 过 探索 性 的 特征 识别 方法 ， 找 出 客户 数据 库 中 的 有 效 特 征 ， 再 分 
析 、 预 测 和 优化 客户 的 服务 收入 、 风 险 、 成 本 等 相关 特征 的 关联， 找到 
新 的 可 说 利 的 目标 客户 。 在 客户 保留 阶段 ， 分 析 多 维 、 海 量 的 用 户 数 
据 ， 发 现 流失 客户 的 特征 后 ， 银 行 可 以 在 具有 相似 特征 的 客户 未 流失 之 
前 ， 采 取 和 额外 增值 服务 、 特 殊 待遇 和 诉 励 忠诚 度 等 措施 保留 客户 。 通 过 
特征 识别 ， 可 以 预 判 哪些 客户 将 停止 使 用 银行 的 信用 卡 ， 转 用 竞争 对 手 
的 卡 ， 银 行进 而 采取 茶 些 措施 维持 这 些 客户 的 信任 。 特 征 识别 和 关联 分 
析 可 以 对 大 量 的 客户 资料 进行 分 机 ， 建 立 数据 模型 ， 确 定 客户 的 交易 习 
惯 、 交 易 和 额度 和 交易 频率 ， 分 析 客 户 对 某 个 产品 的 忠诚 度 、 持 久 性 等 。 
银行 可 以 据 此 为 他 们 提供 个 性 化 的 服务 ， 以 增强 用 户 黏 性， 优化 银行 客 
户 管理 模式 ， 促 进 银行 业 快速 而 稳定 地 发 展 。 


油 活 数据 学 中 的 关联 识别 是 一 种 跨 界 、 高 阶 的 关联 ， 它 所 处 理 的 数 
气 集 突破 了 领域 、 维 度 的 界限 ， 形 成 了 更 有 深度 、 更 具 内 涵 的 分 析 数 据 
集 ， 充 分 挖掘 了 数据 的 显 性 价值 和 隐 和 性 价值 ， 为 辅助 决策 提供 了 更 为 精 
准 的 信息 。 


(三 ) 融合 重 构 


融合 重 构 是 激活 数据 学 中 关联 融合 的 最 后 一 个 步骤 ， 征 最 大 限度 地 
发 挥 激发 数据 集 价值 的 关键 一 步 。 每 种 数据 来 源 都 有 一 定 的 局 限 性 和 片 
面 性 ， 事 物 的 本 质 和 规律 往往 隐藏 在 各 种 原始 数据 的 相互 天 联 之 中 ， 只 
有 融合 各 种 来 源 的 原始 数据 才能 反映 事物 的 全 貌 ， 而 借助 知识 计算 可 以 
将 雄 厂 化 的 多 源 数 据 整 合成 反映 事物 全 貌 的 完整 数据 ， 从 而 提高 数据 控 
掘 的 深度 。 激 活 数 据 学 中 的 融合 重 构 即 建立 数据 间 、 信 息 间 、 知 识 片 段 
间 多 维度 、 多 粒度 的 关联 关系 ， 实 现 更 多 层面 的 知识 交互 ， 从 而 聚合 出 
数据 湖 中 一 个 个 维系 我 们 社会 的 “水 波纹 "。 它 突破 了 常规 的 数据 融合 界 
限 ， 实 现 了 跨 时 间 、 跨 领域 、 跨 空间 的 数据 关联 融合 ， 为 深度 挖掘 数据 
价值 、 最 大 化 数据 使 用 效率 提供 了 可 能 和 方法 。 


大 数据 时 代 丰 富 的 数据 为 人 们 提供 了 更 大 的 利用 价值 ， 但 是 数据 的 
海量 产生 和 新 的 特征 也 使 人 们 面临 的 问题 空前 复杂 一 一 制 裂 的 多 源 异 构 
数据 。 目 前 需要 处 理 的 数据 从 来 源 角 度 看 是 多 源 异 构 的 ， 而 且 这 些 数据 
被 物理 地 存放 在 不 同 的 系统 中 ， 割 裂 的 多 源 异 构 数据 形成 了 各 种 数据 孤 
岛 ， 给 大 数据 分 析 处 理 带 来 了 非常 大 的 挑战 ， 需 要 被 整合 到 统一 的 系统 
中 。 首 先 ， 是 数据 规模 与 数据 价值 之 间 的 矛盾 。 数 据 越 来 越 丰富 ， 提 供 
了 更 多 有 价值 的 信息 ， 但 数据 的 规模 也 越 来 越 大 ， 对 已 有 的 数据 存储 和 
处 理 方 法 提出 了 挑战 ， 需 要 控制 融合 的 规模 。 其 次 ， 是 实体 和 关系 的 动 
态 演化 。 数 据 是 动态 变化 的 ， 实 体 和 关系 也 会 随时 间 不 断 演化 ， 这 就 提 
高 了 实体 和 关系 的 判别 难度 ， 容 易 造 成 数据 不 一 致 。 最 后 ， 是 知识 的 隐 
含 性 。 数 据 除了 显 式 知 识 还 有 隐 式 知识 ， 隐 式 知识 比 显 式 知 识 更 重要 。 
比如 生物 领域 ， 鱼 类 中 的 掠 食 者 在 食物 富 集 时 运动 轨迹 呈 布 朋 运 动 ， 这 
种 隐 含 的 关系 对 知识 的 理解 和 数据 的 融合 都 有 很 大 帮助 。 


激活 数据 学 中 的 融合 重 构 是 解决 上 述 困 境 的 有 效 方法 ， 是 最 大 限度 
地 发 挥 大 数据 价值 的 一 种 手段 ， 推 动人 类 对 世界 的 探索 和 认识 向 新 的 深 
度 与 广度 拓展 ， 它 需要 跨度 更 大 、 层 次 更 深 和 综合 性 更 强 的 研究 方法 。 
传统 的 数据 融合 方法 处 理 的 对 象 是 来 源 相 同 、 结 构 类 似 、 维 度 单 一 的 数 
据 音 元， 但 在 人 工 智 能 时 代 ， 我 们 面 对 的 是 多 源 、 寞 构 、 海 量 、 多 维 的 


数据 单元 ， 传 统 的 流水 线 式 融合 模式 已 经 不 再 能 满足 现 有 融合 需求 ， 激 
活 数据 学 中 的 数据 融合 用 动态 的 方式 统一 不 同 的 数据 源 ， 将 数据 转化 为 
知识 资源 ， 弥 补 了 传统 数据 融合 方法 的 不 足 。 根 据 融合 需求 ， 数 据 融合 
的 实现 主要 分 为 以 下 几 个 步 又， 实体 统一 ， 提 高 融合 效率 ， 识 别 相同 实 
体 ， 链 接 关联 实体 ， 甄 别 真 伪 ， 合 并 冲突 数据 ， 并 将 处 理 结果 反馈 给 实 
体 识别 阶段 ， 提 高 识别 效率 ， 对 实体 识别 和 冲突 解决 过 程 溯源 ， 跟 踪 数 
据 的 演化 〔 如 图 4_8 所 示 ) 。 

重点 统一 演 一 


化 引起 的 不 实体 统一 


确定 性 合并 和 
动态 演化 


退 洲 融合 结 来 
的 数据 来 源 及 数据 渊源 
演化 过 程 


图 4-8 数据 融合 重 构 
实体 统一 。 实 体 统 一 是 数据 融合 的 辅助 步 又， 用 于 提高 融合 效率 ， 
重点 统一 演化 引起 的 不 一 致 性 。 实 体 统一 包括 模式 统一 和 本 体 统一 两 个 
部 分 。 模 式 统一 主要 解决 两 个 异 式 元 系 之 间 的 不 一 致 问题 ， 利 用 属性 名 


称 、 类 型 、 值 的 相似 性 及 属性 之 间 的 邻接 关系 寻找 源 模式 与 中 介 模 式 的 
对 应 关系 。 本 体 是 针对 特定 领域 中 的 概念 而 言 的 ， 用 于 弥合 词汇 异 构 性 
和 语义 监 义 的 间 隐 ， 本 体 统一 主要 解决 本 体 不 一 致 问题 ， 需 要 识别 本 体 
演化 。 本 体 演 化 分 为 原子 变化 、 混 合 变化 和 复杂 变化 。 


实体 识别 。 实 体 识别 是 数据 融合 的 基础 ， 大 数据 环境 中 的 实体 识别 
与 传统 实体 识别 的 区 别 在 于 : 实体 之 间 的 语义 天 联 性 较 强 ， 并 且 存 在 演 
化 性 。 实 体 的 属性 特征 及 所 在 的 语 境 信息 、 冲 突 实体 的 解决 结果 和 共 指 
识别 结果 都 可 能 对 实体 识别 产生 影响 ， 所 以 ， 识 别 实体 应 该 是 实体 识 
别 、 冲 突 解决 、 共 指 识别 三 者 迭代 优化 、 逐 步 求 精 的 过 程 。 实 体 识别 主 
要 是 识别 相似 实体 和 消除 实体 歧义 ， 相 似 指 多 个 命名 实体 表象 可 对 应 一 
个 真实 实体 (或 称 概念 ) ， 歧 义 指 一 个 实体 表象 可 对 应 多 个 真实 实体 。 
根据 数据 类 型 的 不 同 ， 实 体 识 别 方法 分 为 面 问 非 结构 化 文本 的 命名 实体 
识别 与 消 监 、 面 癌 结 构 化 数据 的 记录 链接 ， 以 及 两 种 数据 类 型 之 间 的 复 
杂 数 据 实体 关联 方法 。 


冲突 解决 。 冲 突 解 决 是 数据 融合 的 必要 条 件 ， 它 的 第 一 要 务 是 消 
歧 。 大 数据 的 真实 性 和 演化 性 是 引发 冲突 的 导火线 ， 如 数据 本 号 的 新 鲜 
度 和 页 献 给 特定 但 询 的 价值 量 等 ， 引 发 了 新 鲜 度 和 价值 量 不 同 的 多 真 值 
问题 ， 需 要 评估 信息 质量 ， 合 并 不 确定 性 信息 。 此 外 ， 知 识 融 合 中 推演 
出 的 天 系 也 可 能 对 其 起 到 局 发 作用 ， 所 以 要 将 这 种 新 知识 动态 地 引入 冲 
突 解 决 过程 ， 并 保持 这 种 知识 的 演化 。 冲 突 解 决 的 步 台 ， 即 真 伪 杜 别 、 
不 确定 性 合并 和 动态 演化 。 冲 突 分 为 模式 冲突 、 标 示 符 冲突 和 数据 冲 
突 ， 其 中 模式 冲突 由 数据 源 的 模式 异 构 引 起 ， 比 如 属性 名 、 语 义 等 不 同 
的 情况 ;标示 符 冲突 主要 指 异 名 同 义 现象 ， 数 据 冲 突 主要 指 同 一 属性 具 
有 多 种 不 同 的 值 。 冲 突 的 解决 一 般 是 在 实体 或 属性 级 别 ， 采 用 识别 函数 
进行 的 。 


数据 济源。 数据 溯源 是 传统 数据 融合 不 具备 的 ， 用 于 建立 数据 融合 
的 可 回溯 机 制 ， 垦 济 融 合 结果 的 数据 来 源 及 演化 过 程 ， 及 时 友 现 和 更 正 


错误 。 它 的 关键 是 对 数据 起 源 的 表示 及 数据 演化 中 间 过 程 的 跟踪 。 其 

中 ， 中 间 过 程 包括 实体 识别 和 冲突 解决 过 程 ， 所 以 ， 需 要 建立 实体 识别 
洲 源 机 制 ， 用 于 跟踪 融合 结果 是 由 哪些 街 统一 实体 产生 的 ， 建 并 冲突 解 
决 溯 源 机 制 ， 用 于 处 理 融 合 结果 元 组 中 的 每 个 值 来 自 哪 些 记录 的 哪个 属 
性 值 及 通过 何 种 冲突 解决 方法 得 来 。 三 


融合 是 一 个 将 数据 拆散 重组 的 过 程 ， 其 具体 价值 体现 在 数据 重 构 
上 。《 块 数据 2.0》 提 出 了 全 奶 化 重 构 的 概念 ， 指 对 数据 元 进行 多 维 
度 、 多 方位 、 多 类 型 的 重组 。 在 对 数据 进行 融合 的 基础 上 ， 全 居 化 重 构 
的 基本 运行 原理 如 下 : 数据 经 过 关联 融合 之 后 形成 一 个 数据 集 ， 数 据 处 
理 墨盒 根据 指令 需求 ， 挑 选 出 数据 集中 具有 需求 特征 的 数据 形成 子 集 ， 
进而 对 子 集 里 的 数据 进行 资源 重组 、 价 值 重 构 ， 如 此 循环 往复 ， 直 至 数 
气 使 用 价值 被 最 大 限度 地 发 挥 出 来 。 


从 内 在 层面 看 ， 数 据 重 构 的 过 程 就 是 不 断 化 解数 据 冲 突 、 传 递 数 据 
价值 、 促 进 数 据 共 识 、 实 现 数据 价值 最 大 化 的 过 程 。 价 值 重 构 可 以 通过 
数据 融合 、 数 据 互补 、 存 异 求 同 、 综 合 创新 等 路 径 实现 。 数 据 融合 即 多 
源 数 据 经 过 特定 通用 规则 转换 为 可 以 彼此 交互 的 数据 ， 破 除数 据 壁 垒 ， 
在 此 基础 上 进行 数据 价值 重 构 ;， 数据 互补 指 将 关联 识别 后 的 数据 通过 维 
度 互 补 、 属 性 互补 等 ， 最 大 限度 地 补充 完善 数据 信息 ， 使 其 数据 特征 充 
分 显现 ， 进 而 对 其 进行 数据 重 构 ， 存 异 求 同 指 保持 数据 集中 的 数据 多 样 
性 ， 通 过 对 多 样 数据 进行 价值 重 构 ， 找 到 其 平衡 点 ， 实 现 多 源 数据 内 部 
的 动态 平衡 ， 综 合 创新 指 在 上 述 三 种 方式 以 外 ， 对 数据 价值 重 构 的 全 过 
程 进行 突破 创新 ， 例 如 构建 全 球 统一 的 数据 结构 体系 ， 破 解数 据 困 卉 ， 
实现 任意 接口 数据 的 自由 交互 ， 降 低 数 据 处 理 成 本 ， 实 现 由 昧 托 最 优 。 


众所周知 ， 公 共 安 全 领域 的 数据 数量 庞大 且 多 维 ， 单 一 的 数据 单元 
并 不 能 产生 价值 ， 要 激活 数据 价值 ， 则 需要 对 数据 进行 融合 重 构 ， 包 括 
结构 化 数据 和 非 结构 化 数据 。 其 中 ， 结 构 化 数据 包括 人 员 信 息 〈 如 和 人员 
户籍 库 、 重 点 人 员 库 等 ) 、 人 员 行 为 轨迹 数据 (如 飞机 、 火 车 出 行 数据 


等 ) 、 车 辆 信息 《如 车 辆 购买 信息 、 违 章 信息 等 ) 、 电 信 数 据 《〈 如 通话 
记录 ) 等 ， 非 结构 化 数据 包括 网 页 、 卡 口 图 片 、 重 点 区 域 的 视频 监控 录 
像 等 。 公 共 安 全 领域 数据 的 主要 应 用 场景 是 为 公安 办 案 提供 线索 。 这 种 
数据 比较 复杂 ， 规 模 较 大 ， 如 中 国 茶 省 会 城市 一 小 部 分 数据 构建 成 图 ， 

其 顶点 的 数量 和 边 的 数量 分 别 达 到 了 十 亿 和 百 亿 的 规模 。 对 其 进行 融合 
重 构 采 取 的 方案 是 基于 超大 规模 复杂 关联 数据 的 管理 理论 建立 超大 规模 
的 实体 关联 。 首 先 对 数据 进行 实体 统一 ， 把 物理 上 相互 隔离 的 多 源 异 构 
数据 通过 数据 治理 整合 到 同一 数据 平台 ， 保 证 数据 一 致 性 ， 其 次 对 数据 
进行 实体 识别 ， 这 个 过 程 需 要 自动 构建 实体 之 间 的 显 式 关系 和 隐 式 关 

系 ， 并 存储 在 数据 库 ， 隐 式 关 系 的 构建 借助 规则 或 机 避 学 习 ; 最 后 是 冲 
突 解决 ， 经 过 冲突 解决 的 数据 彼此 间 实 现 了 互联 互通 ， 为 融合 重 构 真 定 
了 基础 。 融 合 之 后 的 数据 再 由 系统 提供 的 强大 的 可 视 化 交互 工具 分 机 ， 

帮助 用 户 在 超大 规模 图 上 做 各 种 分 析 、 关 系 推演 和 比 对 ， 最 终 实 现 了 数 
据 价 值 的 深度 呈现 与 运用 。 


油 活 数据 学 强调 的 融合 重 构 破 除了 数据 壁垒 ， 消 除了 数据 孤 号 ， 实 
现 了 多 源 、 寞 构 、 海 量 、 多 维 数据 之 间 的 关联 融合 分 析 ， 进 而 对 其 进行 
价值 重 构 ， 真 正 意义 上 凸显 了 大 数据 作为 第 四 种 生产 要 素 的 现实 意义 ， 
必 将 推动 社会 的 发 展 和 进步 。 


1. 流 形 是 局 部 具有 欧 几 里 得 空间 性 质 的 空间 ， 在 数学 中 用 于 描述 几何 形体 。 物 理 上 ， 
经 典 力学 的 相 空间 和 构造 广义 相对 论 的 时 空 模型 的 四 维 伪 黎 曼 流 形 都 是 流 形 的 实例 。 


2 欧 几 里 得 空间 ， 是 指 四 维 或 N 维 的 理论 无 穷 大 的 空间 。 
3. 毕 达 天 ， 印 长 波 ， 张 蛤 .数据 降 维 技术 研究 现状 及 其 进展 [J] .情报 理论 与 实践 ， 


2013 (2) : 125-127. 


4. 周 英 ， 卓 金 武 ， 证 月 青 .大 数据 挖掘 系统 方法 与 实例 分 析 [Mj .北京 : 机 械 工 业 出 
版 社 ，2016: 9. 


第 五 章 


目 激 活 : 智能 决策 


目 激 活 是 激活 数据 学 研究 的 核心 环节 ， 古 数据 价值 释放 的 临界 点 。 
在 前 期 数据 搜索 和 关联 融合 的 数据 输入 下 ， 数 据 仍然 是 一 个 潜在 价值 的 
状态 ， 如 何 发 挥 其 价值 ， 将 其 变 成 相应 的 数据 知识 进行 目 主 决策 输出 是 
目 激 活 上 自主 决策 过 程 中 ， 甚 至 整个 激活 数据 学 系统 中 最 关键 之 处 。 数 据 
搜索 和 关联 融合 为 目 激 活 提 供 了 数据 资源 基础 ， 在 已 有 的 数据 基础 上 ， 
选择 有 助 于 目标 任务 执行 的 数据 ， 让 机 器 得 以 自主 学 习 优 化 ， 从 而 输出 
个 体 决 策 。 可 以 说 ， 目 激活 是 所 有 智能 决策 系统 的 关键 环节 。 


目 主 决策 的 输出 依赖 学 习 后 所 获得 的 数据 知识 在 外 界 信息 的 刺激 下 
目 主 对 信息 处 理 进行 决策 输出 的 过 程 。 无 论 是 学 习 还 是 决策 ， 都 离 不 开 
对 人 脑 神经 网 络 的 研究 ， 因 此 ， 本 章 在 对 人 脑 神经 网 络 的 构成 及 机 器 学 
习 理 论 进行 研究 的 基础 上 ， 探 讨 自 激活 的 决策 输出 过 程 。 在 当今 数据 脱 
胀 的 环境 中 ， 目 激活 将 对 数据 运用 进行 更 优化 、 更 有 效 的 提升 。 科 技 在 
发 展 ， 技 术 在 进步 ， 自 激活 阶段 的 运行 过 程 会 不 断 更 新 ， 而 随 大 人们 对 
人 脑 的 了 解 越 来 越 深 ， 目 激活 的 输出 将 会 实现 更 大 的 价值 ， 使 人 工 智 能 


更 “ 增 智 ” 


第 一 全 
脑 认 知 与 类 脑 计算 


(一 ) 神经 元 与 神经 网 络 


在 我 们 已 知 的 宇宙 万 物 中 ， 人 脑 是 最 复杂 的 物体 之 一 。 这 种 复杂 性 
使 人 类 无 法 在 现实 中 使 用 简单 明了 的 计算 模型 来 完美 诠释 人 脑 的 工作 原 
理 。 瓯 目前 的 研究 成 果 来 看 ， 科 学 家 只 是 在 客观 直接 地 观 坚 人 脑 和 模拟 
人 脑 ， 人 脑 纷 楷 复杂 的 工作 机 理 还 竺 进一步 深度 挖掘 。 人 脑 拥有 数 十 亿 
个 相互 作用 的 神经 元 ， 这 种 相互 作用 每 时 每 刻 都 在 发 生 改 变 ， 因 此 乔 清 
由 分 布 在 许多 脑 区 的 大 量 神经 元 发 出 的 信号 及 其 信号 之 间 的 连接 交流 情 
况 ， 无 疑 是 神经 科学 研究 中 要 面临 的 巨大 挑战 。 


基于 人 脑 的 复杂 性 ， 人 脑 的 工作 原理 是 什么 ? 人 脑 的 思维 过 程 是 在 
样 的 ? 这 些 问题 成 为 当代 最 具 挑战 性 的 科学 研究 之 一 。 著 名 神经 生理 学 
家 巴 洛 曾 提出 :“ 思 维 是 由 神经 元 产生 的 ， 神 经 元 的 活动 就 是 思维 。” 下 
人 脑 拥有 许多 不 同 的 细胞 组 织 ， 其 中 对 人 的 感知 、 思 维 、 情 感 、 意 识 等 
重要 的 脑 部 活动 起 决定 性 作用 的 细胞 组 织 当 属 神经 元 ， 人 脑 神经 元 是 组 
成 人 脑 最 基本 的 单元 ， 绝 大 多 数 脑 科学 家 都 认为 神经 元 的 活动 及 神经 元 
群 的 连接 模式 决定 人 类 宏观 的 大 脑 活动 。 因 而 ， 要 了 解 这 个 复杂 大 脑 的 
运行 机 理 ， 了 解 人 类 的 思维 过 程 ， 最 恰当 的 方式 应 该 是 研究 神经 元 之 间 
相互 作用 背后 的 生理 原则 。 人 脑 的 神经 元 大 约 有 2.5x1010 个 ， 其 中 单个 
神经 元 是 一 个 完整 的 细胞 组 织 ， 该 细胞 可 以 接收 和 发 射 脉冲 信号 ， 接 收 
脉冲 信号 的 称 为 树 突 ， 而 发 射 脉冲 信号 的 称 为 轴 突 。 其 中 部 的 细胞 体能 
对 树 突 接收 到 的 信息 进行 加 工 处 理 ， 由 轴 突 将 处 理 后 的 脉冲 信号 输出 传 


MN 
» 


递 给 其 他 神经 元 。 连 接 一 个 神经 元 的 轴 突 与 另 一 个 神经 元 的 树 突 之 间 的 
部 分 称 为 突 触 ， 它 决定 了 神经 元 间 连 接 的 强度 与 性 质 ， 是 神经 元 之 间 肪 
冲 信 号 兴奋 或 抑制 状态 的 关键 节点 。 这 种 兴奋 或 抑制 状态 可 解释 为 神经 
元 在 突 触 的 连接 点 接 收 脉 冲 信 号 时 ， 脉 冲 信 号 在 突 触 上 的 接收 侧 沿 树 突 
被 传 入 细胞 体 的 过 程 中 ， 有 的 信和 号 起 刺 沿 作用， 有 的 信号 起 抑制 作用 。 
当 细 胞 体 中 接收 信号 的 累加 作用 超过 一 个 阐 值 时 ， 细 胞 体 被 激 太 ， 这 时 
它 开 始 加 工 运 作 ， 最 终 将 处 理 后 的 信号 通过 轴 突 传 问 其 他 神经 元 。 如 此 
看 来 ， 一 个 神经 元 在 收发 信号 的 过 程 中 可 以 看 作 一 个 单元 个 体 ， 这 个 单 
元 个 体 对 信号 的 处 理 呈 现 出 系统 性 和 完整 性 。 当 下 的 仿生 学 派 认 为 认 知 
的 基本 元 素 就 是 神经 元 ， 认 知 的 过 程 是 大 量 单元 个 体 神经 元 之 间 相 互 连 
接 的 过 程 ， 树 突 与 轴 突 一 一 对 接 ， 把 众多 神经 元 连 成 一 个 神经 网 络 。 


神经 元 有 多 项 功能 ， 按 其 最 基础 、 最 重要 的 功能 归纳 起 来 分 为 三 种 
类 型 : 第 一 种 类 型 是 感觉 神经 元 ， 叉 称 传 入 神经 元 ， 主 要 用 于 接收 外 来 
言 写 的 刺激 ， 将 这 种 刺激 信号 传 至 人 的 冰 骨 和 大 脑 ， 第 二 种 类 型 是 运动 
神经 元 ， 叉 称 传 出 神经 元 ， 主 要 用 于 大 脑 给 出 的 指令 所 引发 的 肌肉 活 
动 ， 或 产生 的 对 策 行 为 ， 第 三 种 类 型 是 联络 神经 元 ， 又 称 中 间 神 经 元 ， 
它 介 于 上 述 两 类 神经 元 之 间 ， 起 着 神经 元 之 间 机 能 联系 的 媒介 作用 ， 将 
上 述 两 类 神经 元 连接 起 来 组 成 一 个 复杂 的 神经 网 络 。 单 一 的 神经 元 古 大 
脑 的 基本 解 剂 结构 ， 也 是 信息 处 理 的 单元 ， 但 它 无 法 产生 行为 ， 最 终 也 
无 法 产生 思想 ， 因 此 ， 人 脑 神经 系统 真正 能 发 挥 其 功能 的 是 由 神经 元 组 
成 的 神经 群体 或 神经 网 络 。 例 如 ， 对 于 火 的 认 知 ， 神 经 元 是 这 样 工作 
的 : 痛 先 ， 了 眼睛 捕捉 到 相应 的 火 的 信号 后 将 信号 传递 给 视神经 ， 即 感觉 
神经 元 ， 视 神经 作为 一 种 神经 元 ， 接 收 到 的 是 外 界 刺激 ， 这 个 刺激 就 是 
来 目 目 然 界 的 反射 和 散射 的 光线 ， 由 视神经 传递 给 脑 神经 ， 即 联络 神经 
元 ， 多 次 看 到 之 后 ， 其 中 一 个 神经 元 将 火 的 形象 存储 下 来 。 其 次 ， 皮 肤 
(感觉 神经 元 ) 感觉 到 热 ， 将 这 个 信号 传递 给 脑 神经 ， 并 且 和 刚才 的 视 
党 形象 建立 了 联系 ， 当 手 离 火 太 近 感到 很 热 时 ， 脑 神经 就 会 发 出 指令 ， 
人 就 会 将 手 缩 回来 (运动 神经 元 ) 。 由 此 可 以 看 出 ， 负 责 产生 某 种 行为 
所 需 信 息 的 不 是 单一 的 神经 元 ， 而 是 多 个 神经 元 集群 所 构成 的 神经 网 


络 。 


人 脑 神经 元 之 间 相 互 连 接 的 工作 机 理 是 一 个 信息 加 工 处 理 的 过 程 ， 

人 脑 各 个 脑 区 形态 功能 间 的 相互 配合 也 可 以 看 作 一 种 信息 的 加 工 处 理 ， 

这 是 人 有 别 于 其 他 生物 发 挥 其 聪明 才智 的 具体 体现 。 从 宏观 的 角度 来 

看 ， 大 脑 具 有 有 联想、 比较、 判断、 抽象、 概括、 想象 、 做 梦 、 语 言 、 创 
造 发 明 、 解 决 问题 等 功能 ， 这 些 功能 的 具体 体现 是 人 脑 中 复杂 神经 网 络 
对 相应 信号 进行 加 工 处 理 的 结果 。 从 微观 的 角度 来 看 ， 可 以 把 这 个 过 程 
概括 为 一 种 “刺激 一 反应 ”的 人 脑 信息 加 工 模式 。 首 先 ， 外 界 信息 通过 各 
种 感觉 占 官 转化 为 神经 冲动 ， 神 经 冲动 传 到 大 脑 皮 质 转 化 为 神经 联系 ， 

这 种 神经 联系 保持 信息 由 外 界 输入 大 脑 的 状态 。 其 次 ， 大 脑 中 进行 加 工 
处 理 的 神经 元 在 接收 到 传 来 的 神经 冲动 后 ， 变 得 兴奋 或 抑制 ， 根 据 输 入 
言 号 的 强 弱 做 出 对 应 的 反应 。 最 后 ， 在 相应 的 知识 和 信息 的 扩充 下 ， 大 
量 的 神经 元 组 织 在 一 起 后 ， 大 脑 才 表 现 出 识别 、 联 想 、 比 较 、 判 断 、 推 
理 、 抽 象 、 概 括 等 复杂 的 功能 ， 才 能 体现 出 大 脑 对 外 界 的 刺 疝 〈 知 党 ) 
做 出 对 应 的 反应 《动作 ) 。 因 此 ， 根 据 这 个 信息 加 工 处 理 模 型 原理 ， 把 
人 脑 看 作 带 态 记 忆 和 动态 控制 策略 之 上 的 刺激 一 一 反应 闭 置 ， 便 可 建立 
人 脑 模 型 ， 完 成 复杂 的 设计 、 创 新 活动 。 这 就 是 构造 人 脑 模 型 的 基础 。 


(二 ) 从 学 习 到 决 全 


人 脑 具 有 复杂 性 和 动态 性 ， 在 进化 发 展 的 过 程 中 ， 其 结构 和 功能 逐 
渐 成 熟 。 从 感知 到 学 习 ， 从 知识 的 获取 到 行为 的 决策 ， 大 脑 受 学 习 、 训 
练 及 经 验 等 因 系 的 影响 ， 随 着 时 间 的 推移 ， 逐 渐 完 善 大 脑 的 认 知 行为 ， 
改变 大 脑 皮 质 结构 ， 重 组 大 脑 的 认 知 功能 。 从 宏观 层面 来 襄 ， 大 脑 认 知 
行为 发 展 的 变化 也 会 体现 在 大 脑 结构 的 改变 上 ， 其 中 及 生变 化 的 有 大 脑 
的 重量 、 皮 质 厚度 、 不 同 脑 区 沟 回 面积 等 ， 从 微观 层面 来 说 ， 大 脑 认 知 
行为 及 展 将 会 增加 树 突 的 长 度 ， 改 变 树 突 丈 的 密度 、 神 经 元 数量 及 大 脑 


皮质 新 陈 代谢 等 。 在 重组 大 脑 的 认 知 功能 上 ， 认 知 功能 的 认 知 内 容 将 更 
加 丰富 。 人 的 认 知 是 人 们 获取 知识 或 学 习 过 程 的 心理 活动 ， 其 中 包括 意 
识 、 判 断 等 。 可 以 说 ， 认 知 的 基本 功能 是 知识 的 学 习 与 记忆 。 大 脑 认 知 
行为 的 发 展 将 直接 反映 在 人 所 获取 的 知识 信息 上 ， 也 将 体现 在 人 类 的 记 
忆 状 态 中 ， 进 而 反映 在 人 的 行为 决策 上 ， 同 时 这 些 决策 后 的 结果 体验 也 
将 影响 人 们 进一步 的 学 习 和 记忆 ， 影 响 下 一 次 决策 行为 ， 如 此 人 的 认 知 
行为 呈现 循环 递 进 的 态势 ， 不 断 丰 富 ， 不 断 增 智 。 因 此 ， 我 们 在 研究 大 
脑 认 知行 为 时 ， 将 重点 关注 人 是 如 何 学 习 的 ， 人 又 是 如 何 做 出 决策 的 。 


人 所 具有 的 技能 几乎 都 不 是 与 生 俱 来 的 ， 哪 怕 是 简单 的 识别 和 认 
知 ， 连 抓 、 拿 、 放 、 举 等 简单 动作 都 是 婴儿 后 天 学 习 的 成 果 。 一 个 人 从 
出 生 开始 并 不 会 由 基因 来 提供 各 种 技能 信息 ， 不 会 通过 遗传 进行 编程 传 
递 ， 因 此 ， 人 生来 只 拥有 能 够 学 习 各 种 技能 的 物质 载体 ， 而 如 何 将 这 些 
载体 串联 起 来 发 挥 其 学 习 功 用 ， 残 需要 人 脑 这 个 总 指挥 家 的 精心 掌控 和 
管理 。 从 生理 学 、 脑 神经 学 、 认 知心 理学 的 角度 来 看 ， 人 类 每 次 学 习 的 
过 程 都 可 以 解释 为 大 脑 内 一 系列 神经 纤维 传递 脉冲 信号 的 组 合 ， 从 接触 
一 个 新 的 知识 到 学 习 并 理解 至 少 需要 经 历 以 下 4 个 环节 。 


第 一 环节 ， 通 过 五 官 初 识 信息 。 我 们 学 习 的 任何 知识 都 是 以 信息 的 
形式 呈现 的 ， 每 个 新 信息 出 现 后 都 需要 通过 五 类 感官 获取 。 这 五 类 感官 
征 人 的 视 沉 器 官 、 听 和 觉 器 官 、 味 觉 嚣 官 、 趾 觉 右 官 和 触觉 融 官 ， 航 称 为 
人 的 外 部 感官 ， 对 应 的 就 是 人 的 眼 、 耳 、 口 、 鼻 和 遍布 全 身 的 触觉 神 
经 。 通 过 这 些 身 体 的 窗口 ， 我 们 人 类 可 以 感知 世界 、 获 取 知 识 信 息 。 由 
于 知识 信息 的 多 元 性 ， 人 将 从 形象 、 声 音 、 味 道 、 气 味 、 动 作 等 多 维度 
去 了 解 和 学 习 。 


第 二 环节 ， 通 过 神经 系统 传递 获取 到 的 信息 。 在 我 们 的 五 类 感官 获 
取 到 外 界 的 信息 后 ， 这 些 信息 就 会 传递 给 我 们 的 大 脑 ， 负 责 对 这 些 外 办 
言 轧 进行 传递 的 是 我 们 的 神经 系统 ， 而 连接 感官 和 大 脑 皮 质 的 神经 束 将 
组 成 传递 信息 的 通道 ， 集 中 分 布 在 脑 干 和 丘脑 等 部 位 。 其 中 ， 脑 干 主要 


负责 将 通过 五 类 感官 获取 的 信息 不 加 分 类 地 传 给 丘脑 ， 而 丘脑 主要 负责 
对 信息 进行 再 分 类 ， 依 据 信 息 来 源 和 类 型 的 不 同 ， 分 别 将 不 同 来 源 的 信 
恩 传 递 给 不 同 的 皮质 ， 例 如 将 光线 信息 传递 给 视觉 皮质 ， 将 味道 信息 传 
加 给 味 沉 皮质， 将 气味 信息 传递 给 吕 沉 皮质， 将 声 首 信 息 传递 给 听觉 皮 
质 ， 将 触感 信息 传递 给 触觉 皮质 。 


第 三 环节 ， 大 脑 皮 质 过 滤 传递 进来 的 信息 ， 经 过 比较 、 分 析 并 形成 
新 的 神经 连接 。 在 人 的 大 脑 皮 质 中 有 着 对 应 处 理 外 部 五 类 感官 信息 的 大 
脑 皮 质 ， 即 视觉 皮质 、 听 觉 皮质 、 味 觉 皮质 、 嗅 觉 皮质 和 触觉 皮质 ， 它 
们 被 称 作 人 脑 内 部 感官 。 内 部 感官 和 外 部 感官 的 主要 功能 区 别 是 : 外 部 
感官 负责 从 外 部 世界 获取 信息 ， 内 部 感官 则 主要 负责 识别 这 些 信 息 。 在 
上 = 个 环节 中 丘脑 将 外 部 感官 获取 的 信息 分 门 别 类 地 传递 给 相应 的 大 及 
皮质 以 后 ， 每 个 内 部 感官 开始 识别 这 些 信息 ， 这 种 识别 过 程 的 原理 是 基 
WA Re en ,进行 
检索 ， 试 图 找到 与 新 的 信息 能 匹配 的 相关 信息 ， 其 次 与 新 信息 进行 
oe em 
别 ， 并 在 大 脑 中 建立 新 的 神经 连接 ， 信 息 和 知识 在 大 脑 内 部 是 以 神经 连 
接 的 形式 存在 的 。 值 得 注意 的 是 ， 人 的 大 脑 利 用 自己 已 经 存储 的 信息 经 
过 逻辑 推理 ， 对 新 信息 如 果 能 够 认识 和 理解 ， 就 加 以 接纳 ， a 
经 连接 ， 而 不 能 被 认识 和 理解 的 信息 则 被 过 滤 掉 了 ， 即 被 遗 


第 四 环节 ， 过 滤 后 的 新 信息 形成 感觉 及 瞬间 记忆 。 在 这 个 环节 中 ， 
一 部 分 信息 被 内 部 感官 接纳 并 通过 赋予 意义 的 方式 保留 下 来 ， 这 些 被 赋 
予 意义 的 信息 形成 了 各 种 感觉 和 瞬间 记忆 。 有 瞬间 记忆 的 信息 经 过 一 定 条 
件 的 转化 形成 工作 记忆 ， 即 大 脑 的 意识 激活 状态 。 工 作 记 忆 的 信息 经 过 
深加工 形成 有 效 学 习 的 最 终结 果 一 一 长 时 记忆 ， 大 脑 将 深加工 后 的 信息 
结果 存储 在 大 脑 中 ， 供 以 后 应 用 的 时 候 有 效 提 取 。 工 作 记 忆 的 信息 转换 
为 长 时 记忆 ， 是 学 习 的 重要 环节 ， 也 是 决定 学 习 效果 的 关键 环节 。 工 作 
记忆 转化 为 长 时 记忆 一 般 需 要 通过 以 下 3 种 方式 : 一 是 不 断 重 复 、 强 
化 ; 二 是 对 知识 进行 精 加 工 ， 即 对 知识 进行 分 类 与 归 类 ， 和 弄 清 知识 之 间 


的 区 别 与 联系 ， 特 别 是 新 旧 知 识 之 间 的 关联 ， 三 是 对 知识 进行 迁移 与 应 
用 ， 这 有 助 于 在 大 脑 中 建立 更 加 丰富 的 神经 连接 ， 便 于 以 后 信息 的 提 

取 。 三 随 厦 时 间 的 流逝 ， 当 新 关联 的 信息 作为 人 的 长 时 记忆 封存 在 大 脑 
中 时 ， 当 信息 出 现时 ， 对 大 脑 的 刺激 较 大 的 将 变 成 人 类 的 深层 记忆 ， 这 
些 记 忆 虽 然 想 不 起 来 ， 但 不 会 愁 记 ， 等 到 未 来 的 某 个 时 间 节 点 ， 人 脑 在 
菏 种 信息 源 的 刺 沿 下 再 一 次 将 其 开封 提取 ， 为 人 脑 做 出 诀 策 提供 文 撑 。 


人 们 在 拥有 了 学 习 能 力 之 后 ， 会 根据 学 习 后 产生 的 知识 结果 对 所 面 
对 的 事物 或 情形 做 出 相应 的 回应 ， 这 种 为 了 解决 某 种 问题 而 产生 对 应 行 
动 方案 的 过 程 ， 就 是 人 脑 做 出 决策 的 过 程 。 决 策 征 人 脑 的 主要 活动 之 
一 ， 古 人 类 的 高 级 认 知 功能 ， 它 涉及 大 量 的 信息 接收 、 传 递 、 存 储 、 提 
取 、 加 工 处 理 及 输出 等 。 目 前 ， 人 类 的 决策 行为 是 神经 经 济 学 关注 的 核 
心 ， 其 研究 领域 涉及 经 济 学 、 心 理学 、 神 经 生物 学 等 多 个 学 科 。 从 综合 
的 诸多 学 科 来 看 ， 经 济 学 试图 用 一 种 单一 的 、 风 辑 上 统一 的 形式 来 整体 
描述 所 有 的 决 集 选择 行为 ， 心 理学 则 考察 价值 在 主观 估计 和 客观 估计 之 
间 存 在 的 差异 方式 ， 并 提出 种 种 心理 模型 来 解释 观察 到 的 决策 行为 偏 
好 ; 神经 生物 学 着 眼 于 最 简单 的 可 能 存在 的 神经 回路 来 解释 最 简单 的 可 
汕 量 的 决策 行为 元 系 。 由 此 看 来 ， 从 不 同 的 学 科 角 上 度 铸 手 ， 对 人 类 诀 策 
行为 的 认 知 解释 就 不 同 。 因 此 ， 神 经 经 济 学 不 仅仅 旨 在 研究 大 脑 如 何 进 
行 复杂 诀 策 ， 还 通过 借鉴 各 门 学 科 的 研究 成 采 来 探索 一 种 更 加 合理 完善 
的 决策 模型 。 


决 泉 模 型 的 基本 结构 根据 时 间 和 功能 的 不 同 ， 可 粗略 地 划分 为 以 下 
4 个 阶段 : 一 是 确定 问题 ; 二 是 评估 目标 标准 ， 三 是 做 出 执行 目标 的 选 
择 ， 并 根据 选择 完成 与 执行 有 关 的 一 系列 加 工 处 理 ， 如 选择 不 同行 动 的 
先后 顺序 、 蔡 止 其 他 的 范 争 行为 及 选取 适宜 的 行动 时 间 等 ， 四 是 做 出 决 
策 的 输出 ， 体 验 诀 策 的 结果 。 体 验 主 要 源 目 预期 和 实际 结果 之 间 的 差 
异 ， 这 种 差异 对 调整 下 一 轮 决 策 选 项 的 赋值 具有 重要 意义 。 由 此 可 见 ， 
决策 是 一 个 反复 的 过 程 ， 当 前 阶段 的 决策 不 仅 受 先前 阶段 的 影响 ， 而 且 
受 后 期 体验 阶段 的 影响 。 


确定 问题 。 在 大 脑 的 系统 组 织 中 ， 各 种 神经 元 信息 并 非 总 是 处 于 和 
谐 状 态 ， 而 是 以 元 盾 的 形式 在 运动 的 。 当 我 们 遇 到 问题 时 ， 人 脑 需 要 调 
动 存储 在 大 脑 记忆 中 的 这 些 洪 在 运动 的 知识 信息 ， 这 些 知识 信息 通过 前 
期 的 学 习 获 取 ， 封 存在 大 脑 中 ， 在 问题 出 现 后 ， 大 脑 需 要 立刻 根据 所 封 
存 的 知识 信息 认识 和 确定 问题 。 例 如 ， 如 果 我 们 脑海 中 在 前 期 学 习 过 程 
中 已 保存 了 火 ” 的 图 像 和 文字 信息 ， 当 我 们 看 到 火 时 ， 大 脑 将 立刻 给 
出 “ 火 ” 的 信息 指示 ， 让 我 们 明白 自己 遇 到 了 火 ， 确 定 当前 所 遇 到 的 问 


匮 。 


评估 目标 标准 。 在 问题 发 生 后 ， 我 们 将 预测 所 要 解决 问题 的 决策 目 
标 。 决 策 的 目标 是 整个 决策 过 程 的 总 纲 ， 它 引领 着 决策 过 程 的 发 展 ， 影 
啊 其 始终 。 评 佑 目标 标准 就 是 大 脑 在 分 析 征 候 的 基础 上 分 清 需 要 解决 的 
问题 是 什么 ， 通 过 问题 发 生 的 主客 观 条 件 ， 根 据 解 决 问题 的 需要 和 可 能 
确定 需要 达到 什么 样 的 解决 状态 ， 如 此 形成 预期 评估 的 决 集 标准 。 目 标 
标准 的 评估 影响 着 决 集 方案 的 选择 ， 问 题 信 息 受 诸多 因素 影响 ， 随 着 各 
种 客观 维度 发 生变 化 ， 不 同 的 维度 可 能 使 特定 的 神经 回路 编码 受 不 同 的 
神经 化 学 系统 调 市 。 因 此 ， 在 决策 目标 标准 评估 时 会 考虑 到 问题 解决 的 
概率 和 确定 性 、 决 集 方案 的 选项 编辑 ， 以 及 所 定 目 标 方案 的 决 集 效 用 和 
目标 评估 的 影响 因素 。 


执行 目标 的 选择 。 通 过 评估 的 目标 标准 ， 我 们 将 先 选择 决 集 行为 的 
行动 方案 ， 再 执行 产生 的 选择 行动 。 在 选择 方案 时 ， 值 得 一 提 的 是 ， 根 
据 目 标 标 准 产生 的 选择 行为 方案 往往 不 止 一 种 ， 因 为 实现 目标 的 具体 决 
朱 不 止 一 种 ， 我 们 需要 根据 客观 环境 和 主观 条 件 在 所 提出 的 各 种 备 选 决 
朱 方 采 中 选择 最 为 理想 的 那个 。 我 们 的 最 终 执行 方 采 是 能 考虑 到 所 有 因 
素 和 条 件 的 、 设 计 最 合理 的 、 价 值 最 高 的 、 能 最 好 地 实现 决策 目标 的 方 
案 。 选 择 好 最 终 方 采 后 ， 我 们 将 执行 由 评估 目标 而 产生 的 选择 行动 。 从 
认 知 角度 看 ， 该 阶段 必须 抑制 其 他 相互 竞争 的 动作 以 实现 动作 连贯 性 、 
监控 次 级 子 目 标的 完成 、 矫 正 以 前 所 发 生 的 错误 、 计 划 动 作 执行 时 间 


有 
等 。 


决策 的 输出 和 体验 。 执 行 完 选择 行动 后 就 会 产生 最 终 决 策 的 输出 结 
果 。 根 据 前 期 预测 的 目标 标准 产生 决策 结果 是 一 个 自然 的 输出 过 程 ， 然 
而 在 决策 输出 后 的 结果 体验 将 在 决策 过 程 中 起 到 重要 的 作用 ， 会 影响 大 
脑 对 决策 价值 的 评估 。 许 多 因素 影响 实际 结果 的 体验 ， 最 主要 的 是 预期 
与 实际 价值 的 差异 和 结果 本 身 的 效 价 。 预 期 与 实际 价值 的 差异 作为 一 种 
学 习 信 和 号， 将 调节 随后 再 循环 的 学 习 和 决策 行动 ， 从 而 促成 知识 的 产生 
并 积累 再 生 ， 由 此 形成 一 种 循环 再 生 的 前 进发 展 态势 ， 也 是 人 越 来 越 隐 
明 的 具体 实践 过 程 。 


(三 ) 人 脑 昼 能 决策 对 机 器 学 习 的 局 示 


在 了 解 人 如 何 进行 增 乔 的 过 程 后 ， 我 们 会 考虑 如 何 将 这 些 优势 运用 
到 机 顺服 务 中 去 。 既 然 人 脑 的 思维 模型 如 此 精巧 神奇 ， 那 么 我 们 就 需要 
不 断 模拟 人 脑 ， 以 期 让 机 器 能 像 人 一 样 思 考 ， 为 人 类 提供 服务 。 在 这 个 
模拟 过 程 中 ， 我 们 清楚 地 感知 到 人 脑 在 几 千年 的 进化 过 程 中 每 时 每 刻 都 
在 发 挥 的 可 塑性 作用 ， 这 种 可 塑性 学 习 影响 着 神经 网 络 节 点 之 间 的 权 
重 。 因 此 ， 机 器 学 习 的 不 断 升 级 有 待人 们 开发 出 类 似 人 脑 层 次 化 加 工 结 
构 的 深度 学 习 算 法 。 


在 人 的 认 知 行为 过 程 中 ， 识 别 物体 是 最 基本 的 认 知 过 程 ， 从 人 如 何 
识别 物体 来 看 ， 面 孔 是 人 类 生活 中 常见 的 物体 ， 它 携带 有 丰富 的 信息 ， 
从 复杂 的 场景 中 识别 、 检 测 面孔 及 辨别 面孔 的 个 体 信息 等 具有 重要 的 意 
义 ， 因 此 面孔 识别 的 相关 认 知 机 制 及 面孔 加 工 的 特异 性 始终 受到 大 量 学 
者 的 关注 。 以 面孔 为 代表 的 视觉 物体 信息 经 过 视网膜 、 外 膝 体 之 后 ， 大 
致 经 过 初级 和 高 级 视觉 上 及 质 逐 级 的 表征 和 加 工 ， 这 一 过 程 受 到 注意 环 路 
的 调节 和 控制 ， 从 而 引导 我 们 发 现任 务 需 要 我 们 提前 注意 的 特征 和 物体 
目 身 醒目 的 特征 ， 完 成 感知 、 区 分 和 识别 的 过 程 ， 先 后 完成 判断 “是 面 
孔 ， 还 是 果子 ”和 “是 我 认识 的 人 吗 ， 他 叫 什么 ， 在 哪儿 工作 ”等 过 程 ， 
随后 还 启动 了 记忆 系统 来 完成 再 认 和 回忆 (是 否认 识 或 奉 干 年 前 在 某 处 


见 过 他 ) 、 语 义 判 断 〈 他 的 名 字 等 语义 信息 ) 、 情 绪 加 工 〈 他 看 起 来 不 
高 兴 ， 让 我 不 舒服 ) 等 有 关 的 高 级 加 工 。 


这 是 一 个 非常 抽象 的 加 工 模型 ， 有 助 于 解释 面孔 和 复杂 物体 的 加 
工 。 我 们 首先 可 以 看 出 信息 加 工 是 层次 化 的 ， 逐 级 加 工 从 简单 到 复杂 的 
特征 ， 每 个 层级 都 对 视觉 信息 有 人 各 目的 表征 ， 提 取 从 线段 朝 问 、 简 单 特 
征 组 合 到 复杂 特征 等 不 同 的 特征 ， 感 知 、 识 别 等 认 知 加 工 也 是 伴随 着 每 
个 层级 的 表征 进行 的 。 这 些 表 征 和 加 工 都 是 通过 多 个 层级 的 神经 元 群体 
的 同步 活动 实现 的 。 单 个 神经 元 负责 表征 极为 简单 的 信息 ， 但 是 通过 和 群 
体 组 合 在 一 起 就 能 表达 复杂 的 功能 。 从 信息 科学 的 角度 看 ， 整 个 加 工 过 
程 的 实现 可 以 理解 为 复杂 的 多 次 特征 提取 过 程 ， 提 取 的 特征 从 简单 到 复 
杂 ， 多 次 组 合 ， 连 “概念 ”这 种 十 分 抽象 的 特征 也 可 以 被 提取 。 由 此 我 们 
不 难看 出 现在 机 需 视 党 领域 物体 识别 算法 的 局 限 性 ， 也 不 难 理解 与 人 的 
识别 过 程 有 类似 之 处 的 深度 学 习 等 算法 一 定 有 内 在 的 结构 特点 做 保证 。 


在 物体 识别 的 过 程 中 ， 前 景 和 背景 分 割 过 程 扮演 着 很 重要 的 角色 。 
前 景 的 判断 是 人 类 经 过 亿 万 年 学 习 的 ， 进 化 出 了 对 特定 信息 敏感 的 神经 
元 ， 并 经 过 遗传 进化 ， 一 代 一 代 优 化 到 今天 。 背 景 的 分 割 和 和谈 挡 信息 的 
处 理 则 是 人 类 特殊 的 表征 机 制 在 起 作用 ， 虽 然 当前 物体 不 完整 ， 但 是 丝 
坚 不 影 响 我 们 利用 已 有 的 信息 对 其 进行 “< 脑 补 ”， 这 对 计算 机 科学 家 研究 
特征 补 全 机 制 来 说 具有 很 大 的 启示 。 此 外 ， 特 征 提取 和 去 噪 是 同步 完成 
的 ， 即 在 对 感 兴趣 的 物体 进行 表征 的 同时 完成 了 背景 噪声 的 去 除 。 这 里 
重要 的 结构 特点 就 是 前 景 信息 的 表征 ， 其 中 宫 括 了 大 量 细 节 信 息 的 表 
征 ， 以 及 注音 过程 的 参与 ， 即 我 们 感 兴 趣 的 区 域 的 表征 是 更 精细 的 ， 这 
有 助 于 我 们 看 清楚 想 要 关注 的 人 的 面孔 ， 对 于 背景 信息 则 至 多 只 会 保持 
大 尺度 的 轮廓 。 


与 人 的 视觉 层次 化 加 工 相 比 ， 计 算 机 视觉 的 表征 主要 来 自信 息 获取 
初始 阶段 光学 传 感 占 用 和 矩阵 对 两 维 的 视觉 信 息 的 表征 ， 这 一 次 表征 的 结 
果 几 乎 吐 罕 了 处 理 的 全 过 程 。 计 算 机 的 整个 加 工 过 程 往往 没有 “注意 ” 参 


与 ， 也 没有 过 多 地 与 背景 信息 进行 比较 做 特征 捆绑 ， 各 个 层级 的 加 工 是 
单独 进行 的 ， 而 人 的 加 工 则 是 多 层级 的 ， 每 一 层级 都 伴随 着 对 信息 不 同 
层次 的 表征 。 表 征 和 加 工 往往 是 同时 进行 的 ， 在 对 视觉 信息 内 容 进 行 特 
定 表征 的 同时 就 完成 了 这 一 层级 的 加 工 ， 这 和 以 单纯 特征 提取 为 目的 的 
线性 或 非 线性 变换 有 本 质 的 区 别 ， 也 减少 了 对 分 类 器 性 能 的 依赖 。 


实际 上 ， 单 就 分 类 判别 本 身 也 有 竺 进一步 优化 。 我 们 可 以 将 其 类 比 
为 人 类 的 决策 过 程 。 有 研究 指出 ， 人 的 决 倘 过 程 也 是 一 个 自动 化 的 加 工 
过 程 ， 可 能 不 是 我 们 理解 的 那 种 主观 性 很 强 的 高 级 加 工 。 有 理论 认为 ， 
决 宽 过 程 就 是 感知 阶段 以 后 所 有 证 据 的 累积 形成 的 < 上 自然而然 "的 结果 。 
这 一 点 对 我 们 设计 分 类 器 具有 重要 局 及， 隐 含 的 意思 可 能 就 是 特征 提取 
和 分 类 同时 进行 。 对 于 分 类 器 是 有 监督 的 还 是 无 监督 的 ， 认 知 科 学 实际 
上 也 已 经 有 了 管 案 。 对 特定 分 类 问题 来 说 ， 可 能 有 监督 的 效果 更 好 ， 但 
古 这 可 能 无 法 适用 于 识别 多 类 别 的 问题 。 有 理论 认为 ， 视 听觉 信息 的 加 
工 应 该 是 无 监督 的 ， 婴 儿 在 接触 各 种 信息 的 时 候 并 没有 父母 给 出 的 各 种 
标签 做 标记 ， 需 要 靠 自 己 从 规律 中 总 结 ， 他 们 能 够 在 长 期 的 学 习 中 形成 
类 别 ， 目 行 归 类 。 这 对 机 器 进行 深度 学 习 来 说 具有 很 大 局 及 ， 人 类 只 给 
定 机 器 一 定 的 算法 规则， 机 器 在 无 人 类 干预 的 情况 下 自行 和 学习， 寻找 算 
法 规律 进行 总 结 升级 。 
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第 二 下 
让 机 需 像 人 一 样 思 


(一 ) 从 “深蓝 ”到 “阿尔 法 元 ” 


人 工 智 能 是 人 类 最 美好 的 梦想 之 一 。 人 们 一 直 致 力 于 计算 机 技术 的 
发 展 研究 ， 以 期 创造 出 一 人 台 能 产生 “自我 "意识 的 机 器 。 图 灵 在 1950 年 的 
论文 中 提出 图 灵 试 验 的 设想 ， 即 隔 墙 对 话 ， 你 将 不 知道 与 你 谈话 的 是 人 
还 是 电脑 。 这 无 疑 给 计算 机 ， 尤 其 是 人 工 智能 ， 预 设 了 一 个 很 蜗 的 期 望 
值 。 如 何 让 机 器 像 人 一 样 学 习 、 思 考 、 做 出 决 倘 回应 ， 成 为 人 工 智 能 研 
完 领域 最 热门 的 话题 ， 但 在 后 期 近 半 世纪 的 研究 进程 中 ， 人 人 工 智能 的 研 
客 远 远 没 有 达到 图 灵 试 验 的 标准 。 图 元 试验 真 的 就 那么 遥 不 可 及 吗 ?” 人 
类 真 的 找 不 到 这 个 豆 古 难题 的 解决 方案 吗 ? 回答 当然 是 否定 的 ， 因 为 如 
今 的 机 器 不 仅 能 目 主 学 习 、 目 主 决策 ， 而 且 能 战胜 世界 冠军 。 


当下 ， 最 能 体现 人 工 智能 的 莫 过 于 人 机 大 战 的 对 决 。20 世 纪 80 年 
代 ， 美 国 卡 内 基 - 梅 隆 大 学 研发 了 第 一 批 国际 象棋 机 器 ， 在 早期 的 研发 
中 较为 成 功 的 是 “深思 ?>， 每 秒 能 计算 出 70 万 步 棋 ， 但 “深思 ?还 不 是 当时 
人 类 国际 象棋 特级 大 师 加 里 . 卡 斯 帕 罗 夫 的 对 手 ， 直 到 “深蓝 ”的 出 现 。 
1997 年 5 月 11 日 ， 一 场 举世 瞩目 的 人 机 大 战 落 下 帷幕 ，IBM 的 “深蓝 "与 
国际 象棋 世界 冠军 卡 斯 帕 罗 夫 对 弈 后 大 获 全 胜 。 这 是 人 机 对 战 中 一 场 里 
程 碑 似 的 比赛 ， 就 此 意味 着 人 工 智能 的 研究 更 上 了 一 层 楼 。 在 “深蓝 ”的 
设计 者 许 峰 雄 看 来 ，“ 深 蓝 " 主 要 依靠 强大 的 计算 能 力 穷 举 所 有 路 数 来 先 
择 最 佳 策略 ， 其 运算 速度 为 每 秒 3 亿 步 棋 ， 在 预测 棋局 后 手 局 势 上 ，“ 深 
蓝 ” 靠 硬 算 可 以 预 判 12 步 棋 ， 卡 斯 帕 罗 夫 可 以 预 判 10 步 棋 ， 因 而 “ 深 
蓝 ” 的 获胜 可 以 说 是 靠 “ 蛮 力 ”获胜 。 和 凭借 超越 特级 大 师 对 后 续 变 化 的 计 


算 能 力 ， 人 工 知 能 在 棋 类 人 机 大 战 中 占据 上 风 。 然 而 棋 类 游戏 中 ， 围 棋 
一 直 古 人 工 入 能 挑战 人 类 电 手 的 一 座高 峰 ， 而 想 让 机 器 在 围棋 上 战胜 人 
类 顶尖 棋 手 ， 必 须 先 让 机 器 学 会 像 人 一 样 思考 。 因 此 ， 研 究 者 开始 思考 
如 何 使 机 器 变 得 更 加 智能 。 


2016 年 3 月 9 日 韩国 首尔 的 一 场 棋 赛 攻克 了 这 一 难题 ， 又 一 次 将 人 工 
智能 研究 推进 了 一 大 步 。 这 场 棋 赛 由 谷歌 公司 推出 的 智能 机 器 阿尔 法 狗 
对 战 世界 围棋 冠军 李 世 石 ， 并 以 4 : 1 的 比分 赢得 了 比赛 ， 让 围棋 这 座高 
峰 不 再 是 人 工 智 能 不 可 逾越 的 领域 。 此 后 的 2017 年 10 月 ， 阿 尔 法 元 
(AlphaGo Zero) 研制 成 功 ， 它 在 仅 输 入 围棋 规则 、 未 输入 任何 人 类 棋 
谱 的 情况 下 ， 通 过 自学 习 ， 残 具备 了 完胜 阿尔 法 狗 的 超 强 棋 力 ， 被 认为 
实现 了 人 工 智 能 的 重大 突破 。 从 战胜 李 世 石 到 完胜 柯 洁 ， 阿 尔 法 狗 不 再 
使 用 “ 蛋 力 ”算法 ， 而 是 采用 了 深度 神经 网 络 系 统 ， 模 仿 人 脑 神经 元 的 工 
作 机 理 设 计 出 两 个 神经 网 络 一 一 “策略 网 络 ? 和 “价值 网 络 ”"， 这 两 个 神经 
网 络 相 互 配合 预 判 棋局 走势 ， 决 和 俩 棋子 沙子 最 佳 位 置 。 更 重要 的 是 ， 阿 
尔 法 狗 在 它 的 神经 网 络 之 间 运 行 数 干 局 围棋 局 势 ， 利 用 反复 试验 调整 连 
接点 来 完成 研究 工作 。 因 此 ， 阿 尔 法 狗 不 再 拘泥 于 人 为 的 指导 ， 而 是 在 
广泛 学 习 了 人 类 围棋 棋谱 后 再 通过 不 断 与 自己 对 列强 化 学 习 ， 在 干 万 次 
的 自我 对 爸 中 提升 棋艺 ， 并 自行 研究 新 战略 。 这 种 更 为 强大 的 学 习 能 
是 阿尔 法 狗 战 胜 人 类 顶尖 棋 手 的 关键 所 在 。 


如 果 说 20 年 前 的 超级 计算 机 还 需 依靠 穷 举 手段 才能 战胜 人 类 ， 那 么 
到 了 阿尔 法 元 ， 其 所 表现 出 来 的 智库 和 超 强 学 习 能 力 更 令 人 惊叹 ， 并 让 
人 进一步 确信 人 工 智 能 之 梦 不 再 遥远 ， 而 深度 学 习 为 成 功 之 路 撒 下 了 了 和希 
望 的 种 子 。 深 度 学 习 的 概念 源 于 人 工 神 经 网 络 的 研究 ， 其 动机 在 于 建 
立 、 模 拟人 脑 进行 分 析 学 习 的 神经 网 络 ， 让 机 器 能 够 像 人 一 样 思 考 。 从 
本 质 上 来 说 ， 深 度 学 习 是 一 项 “大 数据 工程 >， 需要 让 机 器 从 数 以 百 万 计 
的 图 像 、 声 音 和 文本 数据 中 ， 通 过 建立 有 效 的 学 习 模 型 ， 目 行 总 结 出 特 
定 事 物 的 特征 ， 从 而 实现 自主 学 习 。 其 背后 是 计算 速度 可 以 媲美 人 脑 的 
高 性 能 计算 集群 快速 完成 海量 数据 的 “学 习 ”。 


(二 ) 构造 人 工 神 经 网 络 


深度 学 习 的 概念 源 于 人 工 神经 网 络 科 学 的 发 展 。 其 基本 结构 是 深度 
神经 网 络 ， 深 度 是 指 神经 网 络 层 数 的 加 深 ， 其 初衷 是 在 单 层 神经 元 算法 
能 力 有 限 的 情况 下 ， 将 多 层级 的 神经 元 连接 起 来 ， 创 造 出 功能 强大 的 多 
层 神经 网 络 。 神 经 网 络 作为 一 种 经 典 的 机 器 学 习 算 法 ， 在 模式 识别 、 物 
体检 测 、 视 频 分 机 和 图 像 识别 等 领域 发 挥 着 十 分 重要 的 作用 。 


人 工 神经 网 络 的 构造 源 自 人 脑 神经 网 络 。 人 脑 神经 网 络 是 人 工 神经 
网 络 的 范本 源 果 。 人 工 神经 网 络 是 在 人 类 对 其 大 脑 及 大 脑 神经 网 络 认 识 
理解 的 基础 上 人 工 构造 能 够 实现 茶 种 功能 的 智能 网 络 ， 是 基于 模仿 大 脑 
神经 网 络 结构 和 功能 而 建立 起 来 的 一 个 信息 处 理 系统 。 因 此 ， 人 工 神 经 
网 络 的 提出 是 人 类 在 对 大 脑 及 大 脑 神经 网 络 认识 理解 的 基础 上 模拟 出 的 
一 套 神 经 网 络 系统 。 根 据 人 脑 神经 网 络 系 统 ， 人 可 以 对 外 界 的 信息 进行 
加 工学 习 并 做 出 相应 的 处 理 决 策 ， 因 此 ， 人 工 神经 元 网 络 的 初 建 意图 惑 
征 通过 模拟 这 套 完 善 的 人 脑 神经 元 网 络 处 理 现实 中 的 数据 信息 ， 设 计 出 
新 型 的 机 器 ， 使 之 具有 人 那样 的 信息 处 理 能 力 和 决策 能 力 。 


人 工 神经 网 络 是 由 相互 作用 的 大 量 神经 元 构成 的 并 行 处 理 网 络 ， 以 
模拟 生物 神经 系统 的 方式 处 理 信 息 。 其 在 构成 特征 上 有 着 许多 和 人 脑 神 
经 元 相似 的 特征 : 第 一 ， 神 经 元 是 一 个 多 输入 《一 个 神经 元 的 多 个 树 突 
与 其 他 神经 元 通过 突 触 相 联系 ) 、 单 输出 《一 个 神经 元 只 有 一 个 轴 突 作 
为 输出 通道 ) 单元 ;第 二 ， 神 经 元 是 一 个 具有 非 线性 输入 / 输出 特性 的 
单元 ， 当 细胞 体 中 接收 信号 的 素 加 作用 超过 一 个 国 值 时 ， 细 胞 体 才 被 油 
发 ， 这 时 它 发 出 信号 通过 轴 突 传 癌 其 他 神经 元 ; 第 三 ， 神 经 元 具有 可 塑 
性 ， 细 胞 体 接 收 不 同 神 经 元 的 输入 信和 号 的 强度 ， 古 由 相应 突 触 的 连接 强 
度 调 市 的 。 


从 人 工 神经 网 络 的 结构 来 看 ， 单 个 神经 元 的 功能 极其 有 限 ， 而 由 大 
量 的 神经 元 通过 互 连 构造 而 成 的 神经 网 络 ， 具 有 非常 强大 的 集团 运算 能 


力 ， 是 大 量 形象 思维 、 抽 象 思维 和 灵感 思维 的 物理 基础 。 最 嘻 的 神经 网 
络 模型 的 互 连 模式 是 单 层 或 两 层 结构 。 各 神经 元 的 互联 表现 为 : 单 层 全 
互 连 ， 单 层 局 部 互 连 ， 同 层 神 经 元 互 不 连接 ， 层 与 层 间 神经 元 互 连 ， 输 
出 层 与 输入 层 有 反馈 连接 。 在 神经 网 络 模型 中 一 种 比较 典型 的 互 连 模式 
是 多 层 神 经 网 络 结构 ， 具 有 学 习 能 力 和 并 行 处 理 信 息 能 力 。 


人 工 神经 网 络 的 自主 学 习 。 人 们 在 建立 人 工 神经 网 络 后 ， 还 要 让 其 
能 像 人 脑 神经 网 络 一 样 运行 工作 ， 在 拥有 类 似 的 神经 元 网 络 后 ， 我 们 将 
思考 如 何 让 人 工 神经 网 络 为 人 类 所 用 。 神 经 网 络 是 根据 不 同 的 神经 元 构 
成 不 同 的 神经 网 络 系统 的 ， 因 此 ， 首 先 要 针对 所 要 解决 的 问题 来 构建 相 
应 的 神经 网 络 系统 ， 因 为 神经 网 络 最 初 是 处 于 无 知 状态 的 ， 它 所 拥有 的 
知识 源 于 各 种 初始 输入 的 信息 ， 无 论 这 个 来 源 是 人 、 计 算 机 程序 还 是 其 
他 信息 源 。 这 也 是 人 工 神经 网 络 能 够 模拟 运行 的 关键 所 在 。 神 经 网 络 线 
路 和 突 触 强 度 都 是 随机 设 定 的 ， 所 以 未 加 训练 的 神经 网 络 给 出 的 答案 也 
征 随 机 的 。 神 经 网 络 最初 处 于 无 知 状态 ， 经 过 学 习 后 成 为 更 加 成 熟 的 神 
经 网 络 。 仍 处 于 学 习 阶 段 的 神经 网 络 也 会 根据 输入 规则 得 到 相应 的 反馈 
依据 ， 通 过 反馈 调整 不 同 神经 元 的 连接 强度 。 好 比 当 学 生 回 答 正 确 时 ， 
老师 就 会 交 励 他 ;给 出 错误 答案 时 ， 老 师 就 会 惩 庆 他 。 那 些 与 正确 答 腔 
一 致 的 连接 强度 会 不 断 增强 ， 而 给 出 错误 答案 的 连接 强度 则 会 减弱 。 一 
段 时 间 后 ， 即 使 没有 人 类 的 干预 和 指导 ， 神 经 网 络 也 能 自行 运算 出 正确 
答案 。 这 就 是 神经 网 络 能 够 目 主 学 习 的 关键 所 在 ， 也 成 为 当下 机 器 能 够 
脱离 人 类 干预 完成 目 主 学 习 、 目 主 决 策 的 重要 原理 。 


(三 ) 深度 学 习 驱 动机 器 智能 决策 


深度 学 习 的 概念 源 于 人 工 神 经 网 络 的 研究 ， 因 而 又 称 为 深度 神经 网 
络 ， 其 研究 的 兴起 是 继 浅 层 学 习 后 人 们 对 机 器 学 习 研 究 掀起 的 第 二 次 热 
湖 ， 很 多 时 候 几 乎 成 为 人 工 入 能 的 代名词 。 深 上 度 学 习 的 本 质 其 实 束 是 多 
层 神经 网 络 ， 对 神经 网 络 而 言 ， 深 大 就 是 网 络 学 习 得 到 的 函数 中 非 线性 


运算 组 合 水 平 的 数量 。 有 多 个 隐 层 的 多 层 感 知 器 是 深度 学 习 模 型 的 一 个 
很 好 的 范例 。 深 度 学 习 通 过 组 合 低层 特征 形成 更 加 抽象 的 高 层 表示 属性 
类 别 或 特征 ， 以 发 现 数据 的 分 布 式 特征 。 深 度 学 习 的 概念 和 其 他 机 需 学 
习 算 法 最 大 的 不 同 在 于 如 何 找到 特征 ， 而 特征 的 抽取 过 程 就 是 一 个 抽象 
的 过 程 。 以 往 ， 特 征 抽取 的 其 他 机 器 学 习 算法 都 是 对 一 类 问题 有 解 ， 深 
度 学 习 抽 象 模拟 了 人 类 神经 元 传递 信息 和 连接 的 方式 ， 从 理论 上 说 ， 它 
可 以 完成 多 种 分 类 和 预测 问题 ， 甚 至 可 以 研究 未 知 领域 。 


深度 学 习 的 兴起 源 于 2006 年 加 拿 大 多 伦 多 大 学 教授 、 机 器 学 习 领 域 
的 泰斗 欣 顿 和 他 的 学 生 萨 拉 赫 了 丁 诺 夫 在 顶尖 学 术 刊 物 《科学 》 上 发 表 的 
一 篇 文章 。 这 篇 文章 讲述 了 两 条 主要 信息 : 第 一 ， 很 多 隐 层 的 人 工 神 经 
网 络 具 有 优异 的 特征 学 习 能 力 ， 学 习 得 到 的 特征 对 数据 有 更 本 质 的 刻 
画 ， 从 而 有 利于 可 视 化 或 分 类 ; 第 二 ， 深 度 神 经 网 络 在 训练 上 的 困难 可 
以 通过 “ 逐 层 初始 化 ”> 有效 克 服 。 由 此 ， 深 度 神 经 网 络 〈 即 深度 学 习 ) 这 
一 概念 进入 学 术 界 视野 ， 使 学 术 界 重 燃 其 对 神经 网 络 研 究 的 热情 ， 引 来 
一 大 批 优 秀 学 者 在 多 地 组 建 研究 团队 积极 投身 参与 到 深度 学 习 的 研究 
中 。 其 中 ， 斯 坦 福 大 学 、 纽 约 大 学 、 加 拿 大 蒙特 利 尔 大 学 等 成 为 研究 深 
度 学 习 的 重镇 。2010 年 ， 美 国 国防 部 国防 高 级 研究 计划 局 计划 首次 资助 
深度 学 习 项 目 ， 参 与 方 有 斯 坦 福 大 学 、 纽 约 大 学 和 日 本 电气 股份 有 限 公 
司 美国 研究 院 。 支 持 深度 学 习 的 一 个 重要 依据 ， 就 是 脑 神经 系统 的 确 具 
有 丰富 的 层次 结构 。 一 个 最 著名 的 例子 就 是 胡 贝 尔 - 维 泽 尔 (Hubel- 
Wiesel) 模型 ， 胡 贝尔 和 维 泽 尔 二 人 因 揭 示 了 视觉 神经 的 机 理 而 获得 诺 
贝尔 生理 学 或 医学 奖 。 


目前 ， 深 度 学 习 的 理论 研究 还 基本 处 于 起 步 阶段 ， 但 在 应 用 领域 已 
经 显现 巨大 能 量 ， 展 现 出 越 来 越 优越 的 性 能 特征 ， 尤 其 体现 在 图 像 识 
别 、 语 音 识 别 和 自然 语言 处 理 等 领域 。2011 年 以 来 ， 微 软 研究 院 和 谷歌 
的 语音 识别 研究 人 员 先 后 采用 深层 神经 网 络 技 术 降低 了 语音 识别 
20%~30% 的 错误 率 ， 是 语音 识别 领域 十 多 年 来 最 大 的 一 次 突破 性 进 
展 。2012 年 深层 神经 网 络 技术 又 在 图 像 识别 领域 取得 惊人 的 效果 ， 在 


ImageNet 三 评测 上 将 错误 率 从 26% 降 至 15%。 在 这 一 年 ， 深 层 神经 网 络 
还 被 应 用 于 制药 公司 的 药物 活性 预测 问题 ， 并 获得 世界 最 好 成 绩 ， 这 一 
重要 成 果 被 《纽约 时 报 》 报 道 。 


如 今 谷 歌 、 微 软 、 百 度 等 知名 的 拥有 大 数据 的 高 科技 公司 争 相投 入 
资源 ， 占 领 深 度 学 习 的 技术 制高点 。2012 年 谷歌 发 起 了 一 个 深度 学 习 项 
目 ， 该 项 目 让 一 个 神经 网 络 使 用 16 000 个 CPU 组 建成 一 个 大 规模 的 计算 
机 集群 ， 让 计算 机 使 用 深度 学 习 模 型 自发 观看 1 000 万 段 YouTube 视 频 进 
行 训 练 ， 最 终 实 现 计 算 机 自己 学 习 如 何在 视频 中 识别 猫 脸 。2016 年 ， 谷 
歌 旗下 的 深思 公司 使 用 机 器 深度 学 习 的 方式 让 计算 机 自发 学 习 如 何 下 围 
棋 ， 以 此 战胜 坐 拥 14 座 冠军 奖杯 的 围棋 战 将 李 世 石 ， 由 此 推动 深度 学 习 
名 声 大 噪 。 不 光 是 谷歌 ，Facebook 也 致力 于 深度 学 习 的 平台 建设 。2016 
年 ，Facebook 公 开 了 其 深度 学 习 平 台 Torchnet 和 其 于 深度 学 习 拉 术 的 自 
然 语言 理解 引擎 DeepText。 深 度 学 习 不 仅 受 到 国外 IT 巨头 的 热 捧 ， 在 国 
内 也 是 当下 热门 的 研发 领域 。 百 度 于 2015 年 5 月 通过 “ 深 盟 ? 开 建 了 其 深 
度 机 器 学 习 平台 MXNet， 又 在 2016 年 1 月 开 建 了 深度 学 习 算 法 Warp-CTC 
系统 ， 致 力 于 语音 识别 技术 的 研发 。2014 年 9 月 ， 京 东 挂 牌 成 立 了 京东 
深度 神经 网 络 实验 室 ， 当 下 的 京东 客服 机 器 人 JIMI 束 是 由 京东 深度 神经 
网 络 实验 室 开 发 出 来 用 于 京东 客服 工作 的 即时 聊天 软件 ， 可 用 于 京东 商 
城 的 售 前 咨询 、 售 后 服务 等 自动 在 线 回答 服务 。2015 年 ， 阿 里 巴巴 也 推 
出 了 新 一 代 智 能 客服 产品 阿里 小 蜜 ， 该 智能 客服 产品 基于 语音 识别 、 话 
义理 解 、 个 性 化 推荐 、 深 度 学 习 等 人 工 智 能 技术 的 应 用 ， 每 天 应 对 上 特 万 
级 服务 量 ， 并 能 达到 80% 的 智能 解决 效率 。 


由 此 看 来 ， 深 度 学 习 已 然 成 为 国内 外 IT 巨头 产业 化 研究 的 趋势 热 
扩 ， 这 一 趋势 并 不 仪 仅 受 科学 研究 动力 驱使 ， 也 是 基于 我 们 当下 所 生活 
的 大 数据 时 代 ， 即 我 们 需要 更 加 复杂 且 更 加 强大 的 深度 模型 来 深刻 揭示 
海量 数据 里 承载 的 复杂 而 丰富 的 信息 ， 并 对 未 来 或 未 知事 件 做 更 精准 的 
预测 。 在 大 数据 条 件 下 ， 只 有 更 加 复杂 的 模型 ， 或 者 说 表达 能 力 强 的 模 
型 ， 才 能 充分 发 掘 海量 数据 中 经 藏 的 丰富 信息 ， 才 能 使 我 们 从 大 数据 中 


发 掘 出 更 多 有 价值 的 信息 和 知识 。 为 了 理解 为 什么 大 数据 需要 深度 学 

习 ， 先 举 一 个 例子 : 语音 识别 已 经 是 一 个 大 数据 的 机 需 学 习 问 题 ， 在 其 
声学 建 模 部 分 ， 通 向 面 临 的 是 十 亿 到 千 亿 数量 级 的 训练 样本 。 在 谷歌 的 
一 个 语 首 识别 实验 中 ， 发 现 训 练 后 的 深度 学 习 对 训练 样本 和 测试 样本 的 
预测 误差 基本 相当 。 这 是 违反 常识 的 ， 因 为 通常 模型 在 训练 样本 上 的 预 
汕 误 兰 显 埋 小 于 测试 样本 。 只 有 一 个 解释 ， 就 是 由 于 大 数据 里 含有 丰富 
的 信息 维度 ， 即 便 是 深度 学 习 这 样 的 高 容量 复杂 模型 也 处 于 灰 拟 合 的 状 
态 。 由 此 我 们 可 以 看 出 ， 大 数据 的 发 展 需 要 深度 学 习 提供 技术 文 撑 。 


如 果 把 深度 学 习 比 作 一 个 物种 ， 和 其 他 机 器 学 习 物 种 相 比 ， 它 有 两 
个 特点 。 一 是 不 挑食 。 无 论 原 始 数据 属于 图 像 识 别 、 语 言 识 别 、 生 物 医 
药 等 哪个 领域 ， 都 可 以 * 喂 ?给 神经 网 络 学 习 处 理 。 这 和 大 脑 的 工作 原理 
相似 ， 大 脑 用 同一 套 算法 解决 视觉 、 听 觉 、 嗅 觉 等 感知 问题 。 二 是 骨 口 
大 。 噬 给 它 的 数据 越 多 ， 它 就 变 得 能 力 越 剖 、 越 聪明 ， 并 且 只 会 吃 饱 ， 
不 会 消化 不 恨 。 正 是 这 两 个 特点 ， 使 得 深度 学 习 在 今天 拥有 足够 食物 补 
给 (大 数据 ) 的 情况 下 能 够 莲 动 发 展 。 所 以 ， 与 人 工 规则 构造 特征 的 方 
法 相 比 ， 利 用 大 数据 来 学 习 特 征 ， 更 能 够 刻画 数据 丰富 的 内 在 信息 。 在 
未 来 的 几 年 里 ， 深 度 学 习 模 型 将 更 多 地 应 用 于 大 数据 领域 。 


1. ImageNet 是 由 斯 坦 福 大 学 的 计算 机 科学 家 模拟 人 类 的 识别 系统 建立 的 计算 机 视觉 系 
统 识别 项 目 。 一 一 编者 注 


第 三 节 
镶 能 判断 与 决 案 


(一 ) 提取 特征 


特征 是 机 器 学 习 的 原材料 ， 是 一 种 对 数据 的 表达 。 其 对 最 终 模 型 的 
影响 好 良和 置疑 ， 如 果 数 据 被 很 好 地 表达 成 了 特征 ， 通 常 模 型 束 能 达到 满 
意 的 精准 度 。 因 此 ， 特 征 的 选择 至 关 重 要 ， 对 于 同一 种 学 习 模 型 、 同 样 
的 学 习 方 法 、 同 样 的 数据 ， 选 择 不 同 的 特征 来 表达 ， 可 能 会 产生 完全 不 
同 的 效果 。 当 然 ， 衡 量 一 种 特征 是 不 是 合适 的 表达 ， 要 根据 数据 、 应 
用 、 机 器 学 习 的 模型 和 方法 等 很 多 方面 判定 。 数 据 搜索 与 关联 融合 为 目 
油 活 提供 了 巨大 的 数据 资源 ， 而 原始 特征 第 闻 不 能 满足 实际 要 求 ， 所 以 
一 个 重要 的 难 点 就 是 如 何 提取 和 选择 合适 的 特征 为 目 激 活 丙 定 基础 。 因 
此 ， 特 征 的 提取 和 选择 成 为 目 激活 运行 过 程 中 最 基础 的 关键 环节 之 一 。 


一 般 来 说 ， 特 征 应 该 是 具有 丰富 信息 量 的 ， 且 具有 区 分 性 和 独立 
性 。 特 征 有 很 多 种 特性 和 分 类 : 可 以 是 线性 的 ， 也 可 以 是 非 线性 的 ， 可 
以 是 固定 的 ， 也 可 以 是 适应 性 的 。 好 的 特征 可 以 提供 数据 的 语义 和 结构 
言 上 号， 能 发 现 更 有 意义 、 更 潜在 的 变量 ， 有 助 于 对 数据 信息 产生 更 深入 
的 了 解 ， 即 使 是 简单 的 任务 模型 也 能 取得 民 好 的 学 习 效 果 。 好 的 特征 表 
达 ， 对 最 终 算 法 的 准确 性 起 着 非 常 关键 的 作用 ， 并 影响 着 系统 主要 的 计 
算 和 测试 工作 。 特 征 提取 是 从 数据 特征 中 获取 信息 的 过 程 ， 通 过 变换 特 
征 获取 数据 的 信息 ， 减 少数 据 存 储 和 输入 数据 融 宽 。 在 特征 提取 前 ， 我 
们 需要 从 数据 特征 中 挑选 对 任务 有 帮助 的 特征 子 集 ， 通 过 合理 地 组 合 合 
适 的 特征 提取 方法 和 特征 选择 方法 ， 使 目 激活 更 好 地 进入 下 一 个 构建 模 
型 的 环节 。 


特征 提取 需要 将 高 维 的 原始 特征 通过 映射 或 变换 的 方式 变 成 低 维 空 
间 较 小 的 新 特征 ， 原 始 特征 映射 空间 的 求解 一 般 可 以 通过 人 工 设置 生成 
方法 ， 这 也 可 简单 地 称 作 从 数据 中 目 动 学 习 。 这 种 方式 的 设计 过 程 需要 
专业 的 移 验 知识 ， 整 个 过 程 需要 耗费 巨大 的 人 力 和 物力 ， 尤 其 是 当 原 始 
数据 分 布 在 高 维 空间 的 时 候 〈 如 图 像 数 据 、 基 因数 据 ) ， 这 一 任务 更 显 
得 难以 完成 。 与 此 同时 ， 人 工 设 计 的 特征 也 更 具 随 机 性 ， 大 量 人 工 设计 
特征 的 有 效 性 难以 得 到 保障 。 为 了 减少 对 人 力 的 依赖 ， 并 且 能 较 好 地 提 
取 相 关 特 征 ， 上 自动 学 习 特 征 的 算法 使 得 人 工 智能 的 愿景 令 人 期 待 。 


目 激 活 系 统 的 第 一 阶段 可 以 采用 从 数据 中 目 动 学 习 特 征 的 方法 ， 即 
应 用 深度 学 习 原 理 ， 其 所 学 习 到 的 特征 往往 具有 较 高 的 抽象 性 和 语义 
性 。 通 过 逐 层 变换 ， 深 度 学 习 模型 可 以 在 不 同 层 抽取 数据 的 不 同 表示 。 
获取 最 终 特征 有 两 个 步骤 : 一 是 特征 提取 ， 有 是 在 原始 特征 的 维 数 很 高 的 
情况 下 ， 将 原始 特征 通过 映射 或 变换 的 方法 用 低 维 空间 表示 样本 ， 生 成 
一 组 具有 明显 物理 意义 或 者 统计 意义 的 特征 ， 二 是 特征 选择 ， 是 一 种 从 
数据 特征 中 挑选 出 对 任务 有 帮助 的 特征 子 集 的 方法 ， 从 一 组 特征 中 挑选 
出 一 些 最 有 效 的 特征 以 达到 降低 特征 空间 维 数 的 目的 。 


(二 ) 构建 模型 


有 了 特征 之 后 ， 我 们 要 通过 模型 建立 从 特征 到 目标 之 间 的 关系 。 目 
标 就 是 我 们 的 目的 ， 是 目 激 活 目 主 决 策 的 总 要 义 ， 我 们 要 达到 目标 决策 
的 输出 ， 就 需要 对 我 们 的 特征 数据 进行 建 模 加 工 处 理 ， 狭 义 地 说 就 是 给 
机 需 设 定 一 个 算法 规则 ， 让 其 能 根据 我 们 的 需求 对 数据 进行 处 理 。 数 据 
搜索 和 关联 融合 阶段 为 自 激 活 阶段 提供 了 大 量 与 主题 相关 的 数据 训练 集 
和 测试 集 ， 提 取出 特征 后 ， 输 入 构建 的 模型 中 ， 如 果 与 我 们 的 期 望 值 存 
在 误差 ， 则 调整 权重 ,再 用 测试 集 测试 权重 是 舍 调 整 得 正确 。 如 此 在 构 
建 模 型 的 过 程 中 不 断 优化 模型 的 建构 ， 当 有 新 示例 时 ， 我 们 束 可 通过 这 
个 模型 进行 更 为 精准 的 自主 判断 或 预测 。 


此 外 ， 当 我 们 设 定 的 参数 取 值 不 同时 ， 一 个 特定 的 模型 类 可 能 会 有 
几 十 个 或 者 成 干 上 万 个 模型 ， 这 时 就 需要 我 们 将 这 些 模 型 融合 在 一 起 。 
比如 一 个 三 层 的 前 向 神经 网 络 ， 可 能 包含 15 个 神经 元 ， 由 几 十 个 参数 确 
定 。 因 为 神经 元 数目 、 神 经 连接 数目 和 参数 取 值 不 同 ， 可 以 有 多 个 模型 
子 集 ， 每 个 模型 的 参数 都 是 经 过 特征 到 目标 的 学 习 过 程 确定 的 ， 单 一 模 
型 的 预测 和 分 类 结果 往往 不 尽 如 人 意 ， 所 以 我 们 形象 地 把 每 个 模型 都 叫 
作 弱 预测 器 或 者 弱 分 类 右 。 在 我 们 有 了 成 干 上 万 个 模型 后 ， 束 可 以 通过 
把 模型 融合 起 来 ， 获 得 更 好 的 预测 或 者 分 类 结果 。 上 有 具体 来 看 ， 我 们 可 以 
针对 每 个 竺 分 类 样本 ， 把 每 个 模型 得 到 的 结果 都 看 作对 这 个 样本 分 类 结 
果 的 一 次 投票 ， 最 后 根据 得 标高 低 确 定 最 终 分 类 结果， 投票 结果 经 名 胜 
出 的 模型 会 被 赋予 更 大 权重 。 很 多 决策 问题 都 可 以 通过 这 种 办 法 进行 优 
化 ， 大 幅 提高 其 精准 度 。 因 为 融合 的 方案 是 比较 固定 的 ， 所 以 我 们 只 需 
要 维护 特征 库 和 模型 库 ， 而 所 有 新 的 数据 基本 上 都 映射 为 对 特征 库 和 模 
型 库 的 更 新 ， 包 括 对 特征 权重 的 修正 ， 这 样 才能 保证 决策 输出 的 正确 
性 。 因 此 ， 在 构建 模型 的 过 程 中 ， 模 型 的 染 构 往往 不 止 一 种 ， 根 据 目 标 
决策 ， 模 型 融合 会 给 决策 的 输出 提供 更 为 精准 、 更 符合 目标 的 决 集结 
果 。 目 前 第 用 的 模型 有 决策 树 、 神 经 网 络 、 线 性 模型 等 。 


决策 树 。 决 策 树 学 习 是 一 种 逼近 离散 值 目 标 函 数 的 方法 ， 这 种 方法 
将 从 一 组 训练 数据 中 学 习 到 的 函数 表示 为 一 标 决 策 树 ， 它 是 一 种 利用 于 
预测 模型 的 算法 ， 通 过 将 大 量 数 据 有 目的 地 分 类 ， 从 中 找到 一 些 具有 关 
联 、 淤 在 关联 的 数据 。 现 有 的 已 开发 的 决策 树 学 习 算 法 都 采用 目 上 而 
下 、 分 而 治之 的 递归 方式 搜索 过 历 可 能 的 决策 树 空 间 。 这 种 方法 是 算法 
和 后 继 算法 的 基础 。 算 法 就 是 学 习 构造 决策 树 的 一 个 基本 的 归纳 算法 。 


分 类 的 目的 是 通过 学 习 得 到 一 个 分 类 函数 或 分 类 模型 ， 该 模型 能 把 
数据 库 中 的 数据 映射 到 给 定 类 别 中 的 某 一 个 。 分 类 和 回归 都 可 用 于 预 
训 。 预 调 的 目的 是 从 历史 数据 记录 中 目 动 推导 出 给 定数 据 的 推广 描述 ， 
从 而 能 对 未 来 数据 进行 预测 。 利 用 决策 树 对 数据 进行 分 类 遵循 两 大 步 
又 : 首先 ， 对 训练 数据 进行 学 习 ， 建 构 一 棵 决策 树 ， 即 决策 树 的 归纳 ; 


其 次 ， 对 于 每 个 具体 测试 样本 ， 利 用 生成 的 决 宋 树 提 取 的 分 类 规则 ， 确 
定 样本 的 类 别 。 按 照 诀 策 树 对 数据 进行 分 类 的 步 又， 我们 可 以 看 出 它 隐 
含 地 定义 了 一 个 映射 。 这 个 映射 所 主要 的 过 程 束 是 决策 树 的 数据 判别 从 
根 到 叶子 节点 的 流程 。 当 然 ， 不 同 的 决策 树 算 法 所 形成 的 决策 树 是 不 同 
的 ， 因 此 对 同一 数据 集 的 分 类 结果 也 不 同 。 


神经 网 络 。 神 经 元 是 神经 网 络 中 最 基本 的 成 分 ， 人 们 将 其 结构 模式 
模拟 为 神经 网 络 模型 。 在 生物 神经 网 络 中 ， 每 个 神经 元 与 其 他 神经 元 相 
连 ， 当 它 “ 兴 奋 ? 时 ， 残 会 癌 相 连 的 神经 元 发 送 化 学 物质 ， 从 而 改变 这 些 
神经 元 内 的 电位 ， 如 果 某 神经 元 的 电位 超过 了 一 个 闭 值 ， 那 么 它 就 会 被 
激活 ， 即 “兴奋 ?起 来 ， 回 其 他 神经 元 发 送 化 学 物质 。 在 神经 元 模型 中 ， 
神经 元 接收 到 来 自 其 他 多 个 神经 元 传递 过 来 的 输入 信号 ， 这 些 输入 信和 号 
通过 带 权 重 的 连接 传递 ， 神 经 元 接收 到 的 总 输入 值 将 与 神经 元 的 国 值 进 
行 比较 ， 然 后 通过 激励 函数 处 理 以 产生 神经 元 的 输出 。 


一 般 神 经 网 络 模型 的 结构 包括 三 个 部 分 : 输入 层 、 隐 含 层 和 输出 
层 。 输 入 层 主要 将 输入 的 数据 转化 成 一 串 数 字 ， 隐 含 层 则 根据 输入 层 输 
入 进来 的 数字 计算 出 一 组 中 间 的 结果 ， 最 后 输出 层 根据 隐 含 层 得 到 的 结 
打 做 出 最 终 的 决策 。 每 一 层级 的 数据 流通 都 源 目 上 一 层级 神经 元 的 传 
递 。 在 神经 网 络 工作 时 ， 每 层 神 经 元 根据 上 一 层 的 输出 和 对 应 的 连接 权 
重 做 加 权 求 和 后 产生 一 个 数值 ， 这 个 数值 需要 经 过 一 个 非 线性 变换 后 再 
传递 到 下 一 层 。 这 个 非 线 性 变换 就 是 通过 激励 函数 实现 的 。 激 励 函 数 可 
以 理解 为 将 任意 一 个 输入 数值 转化 为 有 数值 评判 的 过 程 ， 其 作用 类 似 神 
经 细胞 的 信息 传导 。 复 杂 神 经 网 络 的 隐 含 层 往往 有 多 个 ， 隐 含 层 的 数量 
越 多 ， 表 达 的 能 力 残 越 强 ， 从 而 能 解决 的 问题 束 越 多 ， 所 输出 的 决 集 右 
越 有 效 。 


线性 模型 。 线 性 模型 是 一 个 通过 属性 的 线性 组 合 进行 预测 的 函数 ， 
在 相关 条 件 设 定 后 ， 模 型 得 以 确定 。 线 性 模型 形式 简单 、 易 于 建 模 ， 却 
蕴涵 着 机 器 学 习 中 的 一 些 重要 基本 思想 ， 许 多 功能 更 为 强大 的 非 线性 模 


型 可 在 线性 模型 的 基础 上 引入 层级 结构 或 高 维 映射 得 到 。 此 外 ， 由 于 变 
量 条 件 直观 表达 了 各 属性 在 预测 中 的 重要 性 ， 线 性 模型 有 很 好 的 解释 
性 。 线 性 模型 使 用 简单 的 公式 通过 一 组 数据 点 查找 最 优 答案 。 通 过 已 知 
的 变量 方程 ， 可 以 求 出 想 要 预测 的 变量 。 为 了 求 出 预测 量 ， 我 们 输入 已 
知 的 变量 得 到 答案 。 换 句 话 说 ， 需 要 得 到 目标 预测 量 ， 我 们 通过 变量 方 
程 的 拟定 ， 输 入 相关 变量 算出 我 们 的 预测 结果 ， 进 而 作为 决策 的 判断 参 
考 。 在 上 自诉 活 的 决策 过 程 中 ， 根 据 我 们 的 数据 信息 特征 ， 我 们 需要 选 定 
一 个 合适 的 模式 进行 参数 调整 。 在 设 定 学 习 规则 时 ， 我 们 能 通过 期 望 值 
不 断 修 正 权 重 ， 最 终 得 到 一 个 可 用 权重 并 用 训练 好 的 模型 分 类 或 预测 新 
示例 。 


(三 ) 决策 输出 


机 器 通过 深度 学 习 算 法 学 习 特征 、 构 建 模型 并 通过 提取 出 的 特征 不 
上 晰 调整 模型 参数 ， 机 器 已 具备 了 目 主 学 习 的 能 力 ， 学 得 一 个 正确 的 模 
型 ， 可 以 根据 这 个 正确 的 模型 实现 正确 的 分 类 或 预测 ， 即 机 器 已 具备 了 
目 主 决策 能 力 。 机 器 的 决策 输出 代表 了 机 器 目 主 学 习 的 能 力 ， 决 策 越 来 
越 正 确 就 代表 了 机 器 目 主 学 习 能 力 越 来 越 强 。 当 然 ， 机 器 的 决 集 输 出 受 
到 很 多 因素 的 限制 ， 特 征 学 习 的 算法 不 同 ， 任 务 模 型 的 选择 不 同 ， 机 需 
自 激 活 后 价值 输出 就 会 不 同 。 现 在 基于 深度 学 习 的 特征 提取 可 以 实现 更 
加 抽象 的 特征 表示 ， 为 自 激 活 的 价值 输出 提供 了 条 件 。 我 们 将 一 步 步 细 
看 自 激 活 是 如 何 进行 决策 输出 的 。 


第 一 阶段 是 策略 网 络 的 形成 。 数 据 搜索 和 关联 融合 阶段 提供 的 数据 
会 在 目 激 活 阶段 被 提取 特征 ， 在 已 有 先 验 知 识 的 基础 上 ， 通 过 分 类 识别 
来 目 不 同 信息 源 的 特征 得 出 结果 ， 这 个 过 程 是 一 个 获取 经 验 的 过 程 。 通 
过 得 出 的 结果 形成 一 个 对 特征 数据 进行 加 工 处 理 的 神经 网 络 模型 ， 即 集 
略 网 络 。 该 全 略 网 络 的 形成 源 于 设 定好 的 算法 规则 和 决策 目标 。 目 激活 
的 集 略 网 络 是 一 个 有 监督 学 习 策略 的 网 络 ， 输 入 样本 特征 后 ， 能 够 预 判 


出 解决 问题 的 所 有 货 略 方案 ， 并 映射 出 每 个 策略 方案 获得 成 功 的 概率 分 
布 ， 通 过 观察 具体 的 环境 状态 ， 和 直接 预测 出 目前 成 功 概率 最 大 、 最 应 该 
执行 的 全 上 略 。 


第 二 阶段 是 总 结 规律 。 在 策略 网 络 建立 后 ， 机 器 就 有 了 自行 训练 以 
强化 学 习 的 基础 。 为 了 达到 训练 的 目的 ， 目 激活 需要 大 量 的 训练 样本 ， 
样本 就 是 数据 资源 ， 训 练 好 的 模型 就 可 以 用 来 预 判 出 更 优 更 好 的 决策 策 
略 。 整 个 样本 的 训练 过 程 需要 大 量 的 数据 资源 ， 这 是 当下 海量 数据 所 能 
提供 的 优势 资源 。 当 然 自 激活 并 非 仅仅 通过 单纯 的 训练 束 能 完成 最 后 的 
决策 输出 ， 而 是 接着 用 强化 学 习 的 方式 进一步 提高 系统 的 性 能 。 在 这 
里 ， 强 化 学 习 主要 用 来 搜集 更 多 的 样本 ， 从 而 提高 系统 的 准确 率 。 让 机 
右 不 断面 对 新 的 刺激 信和 写 来 训练 完善 日 里 神经 网 络 ， 通 过 多 次 达 代 训练 
产生 不 断 升级 版 本 的 神经 网 络 。 参 数 的 不 断 调整 ， 使 得 构建 的 模型 越 来 
越 准确 ， 即 总 结 获得 更 正确 的 规律 。 


第 三 阶段 是 最 终 决策 的 输出 。 不 管 是 策略 网 络 的 构建 、 规 律 的 总 结 
还 是 决策 的 输出 ， 都 是 目 激 活 的 价值 输出 。 策 略 网 络 是 价值 输出 的 第 一 
步 ， 为 最 后 的 决策 输出 提供 了 和 条件， 规律 的 总 结 是 一 个 目 主 对 共和 目 主 
学 习 的 过 程 ， 只 为 决 朱 的 准确 性 ， 最 后 决策 的 输出 则 证 明了 之 前 的 上 自主 
学 习 特征 。 机 器 在 已 有 的 神经 网 络 基础 上 ， 通 过 调整 权重 ,进行 争 抢 学 
习 后 输出 策略 结 末 。 通 过 已 形成 的 神经 网 络 对 现行 策略 结果 进行 验证 ， 
当 决 倘 的 正确 率 不 满足 要 求 的 时 候 ， 则 将 那些 不 满足 要 求 的 增加 到 训 经 
中 ， 返 回 重 新 学 习 ， 下 到 满足 要 求 为 止 ， 由 此 输出 最 终 最 优 的 决 集结 
果 。 


目 激活 的 决策 输出 是 机 器 智能 决策 的 关键 环节 ， 决 策 的 输出 实现 了 
目 激 活 的 意义 。 数 据 在 通过 相应 模型 的 构建 后 提取 当前 事物 的 特征 ， 并 
与 系统 内 部 特征 数据 库 里 的 特征 相 匹 配 ， 然 后 根据 训练 特征 集 和 测试 特 
征集 联合 起 来 不 断 调整 模型 参数 。 当 我 们 通过 一 个 特定 的 模型 运算 时 ， 
目 激 活 系统 会 有 一 个 结果 输出 ， 这 个 结果 或 许 是 对 数据 的 分 类 ， 或 许 是 


对 数据 的 优化 ， 或 许 是 对 数据 隐 含 事件 的 一 种 预测 ， 但 古 因为 每 个 日 激 
活 系 统 的 特征 数据 库 不 同 及 算法 不 同 ， 所 以 输出 的 结果 不 同 ， 进 而 做 出 
的 决 集 也 会 不 同 。 即 使 是 单个 系统 ， 针 对 预测 问题 时 ， 目 激活 系统 也 会 
出 现 多 种 方案 ， 这 时 就 需要 热点 减 量 ， 才 能 更 有 效 地 使 系统 继续 “学 
习 ” 实现 超越 。 


第 六 章 


热点 减 量 化 : 智能 筛选 


激活 数据 学 中 的 热点 减 量 化 是 超 数据 时 代 如 何 对 海量 数据 进行 有 效 
取 侈 的 一 个 重要 途径 。 所 谓 热 点 减 量化 ， 是 指数 据 单元 目 激活 后 ， 在 系 
统 层面 出 现 的 帕 累 托 最 优 状 态 。 幅 累 托 最 优 是 资源 分 配 的 一 种 理想 状 
态 ， 是 公平 与 效率 的 “理想 王国 ”。 热 点 减 量化 通过 自诉 活 步骤 ， 对 数据 
单元 活跃 状态 进行 清晰 的 层次 划分 ， 并 以 此 为 依据 ， 挑 选 出 更 具 价 值 的 
数据 单元 进行 分 析 。 通 过 模仿 人 脑 筛选 信息 的 遗 筷 机 制 ， 借 鉴 大 数据 信 
息 取舍 的 方式 方法 ， 结 合 人 工 智能 时 代 当 下 的 需求 ， 将 遗忘 因子 作为 热 
点 减 量化 的 一 个 结构 性 要 系 纳 入 分 析 系 统 ， 从 而 寻求 在 数据 分 析 中 实现 
以 目 然 遗 碟 为 要 件 的 信息 取舍 。 


第 一 节 
遗忘 ， 是 为 了 更 好 的 记忆 


(一 ) 人 脑 的 记忆 存储 极限 


大 脑 是 由 神经 元 构成 的 ， 神 经 细胞 相互 之 间 通 过 神经 突 触 相互 影 
啊 ， 形 成 极其 复杂 的 相互 联系 ， 而 记忆 束 是 脑 神 经 细胞 之 间 的 相互 呼叫 
作用 。 三 所 谓 “ 记 忆 ? 是 一 个 复 灯 而 宽泛 的 概念 ， 一 般 人 次 的 记忆 ， 在 认 
知 科学 中 称 作 陈 述 性 记忆 ， 这 种 记忆 可 以 说 是 人 类 独 有 的 ， 有 具有 很 强 的 
意识 支配 性 。 现 代 神 经 科学 认为 ， 记 忆 是 脑 部 的 神经 元 之 间 通 过 突 触 联 
系 所 产生 的 变化 。 通 过 学 习 ， 脑 里 面 的 神经 元 之 间 产 生 一 些 新 的 连接 ， 
就 形成 了 记忆 ， 之 后 如 末 再 受到 与 之 相关 连 的 弱 刺 激 ， 就 可 以 激活 所 有 
相关 的 神经 核 团 ， 在 脑 中 再 现 原来 的 内 容 。 三 


脑 神 经 细胞 之 间 的 相互 呼叫 作用 的 维持 时 间 有 些 是 短暂 的 ， 有 些 是 
持久 的 ， 还 有 一 些 介 于 两 者 之 间 。" 三 据 此 ， 科 学 家 将 记忆 分 为 短期 记 
忆 、 中 期 记忆 和 长 期 记忆 ， 其 中 ， 短 期 记忆 的 实质 是 大 脑 的 即时 生理 生 
化 反应 的 重复 ， 而 中 期 和 长 期 的 记忆 则 是 大 脑 细胞 内 发 生 了 结构 改变 ， 
建 并 了 固定 联系 。 比 如 怎么 骑 目 行车 束 是 长 期 记忆 ， 即 使 多 年 不 骑 ， 人 
们 仍 能 路上 车 就 走 ， 中 期 记忆 是 不 牢固 的 细胞 结构 改变 ， 只 有 “ 曲 不 离 
口 、 产 不离 手 ”， 上 反复 加 以 内 回 ， 才 会 变 成 长 期 记忆 ;， 短期 记忆 是 数量 
最 多 且 最 不 牢固 的 记忆 ， 一 个 人 每 天 只 将 1% 的 记忆 保留 下 来 。 


人 类 的 大 脑 极其 复杂 ， 它 包含 了 1 ”000 亿 个 神经 元 ， 神 经 元 是 大 脑 
其 备 记忆 功能 的 物质 基础 。 所 谓 的 神经 元 是 一 种 特殊 的 细胞 ， 长 有 成 干 
上 万 个 触手 ， 各 个 神经 元 的 触手 相互 通 连 ， 形 成 一 种 神经 元 回路 ， 类 似 


于 电脑 内 存 条 里 的 电子 回路 ， 只 不 过 要 复杂 得 多 。 每 个 神经 元 通过 突 
触 ， 与 其 他 神经 元 存在 上 干 个 联结 ， 以 传递 信息 ， 这 使 得 一 个 人 的 大 脑 
中 大 约 有 1 ”000 万 个 神经 联结 。 人 们 普 裔 认为， 我们 仪 使 用 了 大 脑 很 小 
的 一 部 分 ， 但 现实 与 之 相反 ， 健 康 人 类 大 脑 中 神经 元 与 突出 的 整个 网 络 
都 是 活路 的。 但是， 如 果 我 们 想 要 记 住 接收 到 的 每 个 感觉 刺激 的 话 ， 大 
脑 这 种 恢 人 的 、 巨 大 网 格式 的 加 工 与 存储 能 力 将 会 被 迅速 济 没 。 


众所周知 ， 早 期 人 类 存储 信息 是 通过 大 脑 来 完成 ， 大 脑 记忆 是 人 类 
存储 信息 的 最 主要 方式 。 我 们 的 大 脑 是 神经 系统 的 中 枢 ， 在 学 习 活 动 
中 ， 大 脑 是 进行 学 习 的 最 主要 的 右 官 ， 是 积累 知识 经 验 的 总 存储 库 。 关 
于 大 脑 记忆 存储 研究 的 具体 讨论 ， 要 从 “大 脑 存 储 记忆 原理 ”开始 。 大 脑 
能 储存 记忆 是 利用 了 数字 信号 和 模拟 信号 相 结合 的 方式 ， 可 以 称 带 负电 
的 钠 离 子 的 间 鞭 性 流动 为 数字 信号 ， 因 为 这 种 信号 只 要 产生 惑 不 会 消失 
或 减弱 ， 而 各 个 神经 元 连接 处 是 有 大 约 十 万 分 之 一 坚 米 间 隐 的 ， 这 里 的 
辣 写 传输 属于 模拟 信号 。 根 据 情况 人 不同， 传输 情况 也 有 所 人 不同， 人 类 的 
大 脑 就 是 利用 这 种 数字 信号 和 模拟 信号 的 无 限 组 合 产 生 了 千差万别 的 记 
忆 。 


许多 神经 科学 家 认为 ， 日 常生 活 中 所 发 生 的 事情 被 转化 成 记忆 临时 
保存 到 人 脑 的 海马 体 中 ， 再 由 海马 体 将 记忆 转移 到 新 大 脑 挛 质 存储 ， 这 
种 形式 为 长 期 记忆 。 这 个 关于 记忆 存储 转移 的 理论 目前 受到 了 挑战 ， 美 
国 布衣 大 学 神经 科学 家 羽 雅克 : 梅 达 和 诺 贝 尔 生 理学 或 医学 奖 获 得 者 、 
生理 学 家 伯 特 : 院 克 曼 共同 主持 了 一 项 新 的 研究 ， 找 到 了 人 类 海马 体 和 
新 大 脑 皮 质 进行 “对 话 ” 的 最 好 证 据 ， 表 明了 记忆 存储 是 通过 一 种 惊人 
的 “互动 ”来 实现 的 。 这 种 惊人 的 “互动 ?并 不 是 海马 体 以 一 种 “ 脑 细胞 暴 
发 * 的 方式 癌 新 大 脑 皮 质 上 传记 忆 ， 而 是 新 大 脑 皮 质 操 控 厦 它 和 海马 体 
之 间 的 “对 话 ”。 


人 脑 记 忆 和 存储 是 肯定 不 会 放 在 真空 中 的 ， 那 么 人 类 能 够 存储 多 少 记 
忆 昵 ?如 果 这 些 记 忆 用 GB、TB 之 类 的 单位 衡量 ， 大 概 等 于 多 大 的 硬盘 


容量 呢 ? 2014 年 3 月 《 目 然 》 杂 关 有 一 篇 文章 ， 分 析 称 小 鼠 大 脑 的 13 个 
神经 元 的 结构 ， 数 据 存储 量 高 达 1TB。 虽 然 一 个 重 约 1.4 千 克 的 成 年 人 大 
脑 有 大 约 1 ”000 亿 个 神经 元 ， 但 这 些 神经 元 是 否 都 用 来 存储 呢 ? 目前， 
科学 研究 已 经 表明 ， 这 1 ”000 亿 个 神经 元 在 我 们 的 大 脑 中 并 没有 全 部 用 
于 人 存储。 


从 生物 特性 而 言 ， 虽 然 人 类 大 脑 中 的 神经 元 并 没有 全 部 被 用 来 存储 
记忆 ， 但 是 大 脑 存储 数据 的 容量 是 非常 庞大 的 。 有 神经 科学 家 推算 分 
析 ， 人 类 大 脑 中 的 1 000 亿 个 神经 元 即使 只 有 110 用 于 存储 ， 也 在 使 用 高 
达 100 亿 个 神经 元 。 小 白鼠 的 13 个 神经 元 系统 就 存储 了 1TB 的 数据 ， 那 
么 人 类 大 脑 存储 容量 相当 于 7.6 亿 TB 的 数据 。 即 使 用 当前 最 大 容量 8TB 
的 硬盘 来 存储 这 些 数据 ， 也 需要 9 ”500 万 块 硬 盘 ， 如 果 将 这 些 硬盘 (一 
个 约 为 41 毫 米 ) 摆 起 来 ， 大 约 有 3 895 000 米 高 ， 相 当 于 4 703 座 世界 最 
高 的 迪拜 塔 〈828.14 米 ) 的 高 度 。 三 


大 脑 存储 信息 容量 的 惊人 能 力 表 明了 人 类 记忆 的 存储 量 是 非常 巨大 
的 ， 甚 至 从 理论 上 来 说 ， 我 们 认为 大 脑 对 记忆 的 存储 不 可 能 存在 极限 。 
这 种 关于 大 脑 存 储 记 忆 无 限 的 理论 ， 是 不 是 意味 着 在 这 个 信息 大 爆炸 的 
时 代 ， 人 类 的 大 脑 就 不 会 超 负 和 荷 运载 呢 ? 事 实 上 ， 在 信息 技术 和 通信 技 
术 日 新 月 寞 的 今天 ， 只 要 睁 开眼 睛 我 们 就 可 以 看 到 信息 ， 也 可 以 说 信息 
征 无 孔 不 入 ， 听 到 的 、 看 到 的 事物 都 包含 着 信息 。 当 信息 技术 和 通信 拉 
术 以 高 速度 发 展 并 为 我 们 提供 信息 之 时 ， 我 们 大 脑 的 记忆 存储 极限 也 越 
来 越 明 显 〈 见 图 6-1) 。 限 制 我 们 的 已 经 不 再 是 技术 ， 而 是 我 们 目 身 的 
生物 学 特性 。 


能 力 阅 值 


输出 《正确 重复 的 信息 量 ) 


输入 《接收 的 信息 量 ) 


图 6-1 人 类 大 脑 记忆 存储 极限 示意 图 


据 权 威 媒 体 报道 ， 现 代 人 类 每 天 输入 的 信息 量 足 以 让 通 钊 的 笔记 本 
电脑 超 负 蓓 运转 一 周 ， 我 们 的 大 脑 正 承受 着 超 量 信息 的 负荷 。 人 类 每 天 
至 少 过 到 34GB 的 信息 ， 通 过 电子 邮件 、 网 页 、 电 视 和 其 他 媒体 ， 我 们 
每 天 淹没 在 近 10 万 字 的 信息 中 ， 相 当 于 每 秒 23 个 词 。 三 然而 ， 对 我 们 大 
部 分 人 而 言 ， 在 菏 种 范围 和 内， 我 们 大 脑 接收 到 的 98% 的 信息 都 是 无 用 
的 。 这 种 无 用 信息 如 果 都 被 存储 在 我 们 头脑 中 的 话 ， 我 们 的 大 脑 将 承受 
超 量 信息 。 换 句 话 说， 信息 超载 有 一 天 将 会 使 我 们 大 脑 的 记忆 存储 达到 
极限 。 


(二 ) 记忆 的 选择 性 封存 


大 脑 记忆 的 选择 性 封存 (或 称 “ 休 虐 ”) 就 像 动物 冬眠 一 样 ， 只 要 有 
适宜 的 外 部 环境 就 将 苏醒 。 有 科学 家 认为 ， 在 大 脑 记 忆 的 价值 被 特定 主 
体 利用 列 尽 之 时 ， 只 是 这 些 记 忆 的 某 一 方面 用 途 的 价值 梓 使 用 ， 并 不 意 
味 着 这 些 记忆 没有 任何 价值 ， 可 能 由 于 主体 或 主体 记忆 需求 的 改变 ， 也 
可 能 由 于 其 关联 记忆 的 出 现 ， 使 其 成 为 非常 有 价值 的 记忆 或 者 是 记忆 集 
合 中 的 关键 记忆 。 也 就 是 说 在 特定 时 间 和 空间 内 ， 对 于 特定 主体 ， 大 脑 
记忆 的 价值 出 现 选择 性 休眠 状态 。 


“休眠 ”一 词 ， 与 “苏醒 ”相对 。 在 不 适宜 的 外 部 环境 中 ， 某 些 动 植物 


的 生命 活动 极度 减少 ， 此 时 为 了 降低 能 量 损耗 ， 其 进入 恰 睡 状态 ， 一 且 
外 部 环境 改善 ， 适 宜生 存 和 生活 ， 其 将 苏醒 过 来 ， 照 常生 长 、 活 动 。 所 
谓 大 脑 记 忆 人 休眠， 就 是 在 大 脑 记忆 环境 的 局 限 下 《比如 关联 记忆 不 足 、 
主体 记忆 需求 消失 ) ， 对 特定 主体 而 言 ， 某 些 记忆 的 价值 极度 袁 退 ， 但 
并 没有 把 这 些 记忆 清除 ， 而 是 将 这 些 记忆 封存 ， 此 时 这 些 记忆 进入 “ 休 
眠 ”状态 ， 一 旦 大 脑 记忆 环境 改善 (比如 关联 记忆 充足 、 主 体 新 的 记忆 
需求 出 现 ) ， 这 些 记忆 的 价值 < 苏醒"， 并 重新 被 利用 ， 满 足 主 体 新 的 记 
忆 需 求 。 


大 脑 记忆 价值 的 休眠 是 客观 存在 的 ， 不 以 人 的 意志 为 转移 。 但 被 特 
定 主体 满足 了 特定 需求 之 后 ， 记 忆 有 两 条 : 一 是 清除 ， 使 其 走向 记忆 生 
命 的 终点 一 一 记忆 消亡 ;二 是 保存 ， 依 靠 大 脑 记忆 存储 延续 记忆 生命 ， 
使 其 处 于 记忆 休 虐 状态 ， 等 得 其 价值 的 复苏 ， 被 再 利用 ， 实 现 记 忆 增 
值 。 记 忆 消 亡 和 记忆 休眠 属于 此 消 彼 长 的 关系 。 


言 恩 的 真实 价值 就 像 漂 序 在 海洋 中 的 冰山 ， 第 一 眼 只 能 看 到 冰山 一 
角 ， 而 绝 大 部 分 则 隐藏 在 表面 之 下 。 正 如 经 济 学 家 所 谓 的 非 竞 争 性 一 
样 ， 大 脑 记 忆 不 同 于 其 他 物质 性 产品 ， 一 个 人 对 其 使 用 不 会 影响 到 其 他 
人 的 使 用 ， 大 脑 记忆 的 价值 也 不 会 随 着 使 用 而 有 所 损耗 。 大 脑 记忆 的 价 
值 也 并 不 限定 于 特定 主体 或 用 途 ， 它 可 以 为 了 同一 目的 被 使 用 多 次 ， 也 
可 以 用 于 不 同 的 方面 。 


大 脑 记忆 由 低级 阶段 同 高 级 阶段 的 每 一 次 跨越 ， 都 离 不 开 人 类 的 价 
值 创造 活动 ， 并 为 大 脑 记忆 注入 新 的 价值 。 老 化 的 大 脑 记忆 或 基本 用 途 
价值 完成 的 记忆 被 加 入 人 类 的 创造 活动 ， 也 会 为 其 注入 新 的 价值 ， 或 激 
发 其 休眠 的 价值 。 更 何况 大 部 分 被 认定 已 经 衰退 或 死亡 的 大 脑 记 忆 并 不 
征 没 有 价值 ， 而 是 因为 记忆 很 难 被 人 们 获取 ， 或 是 被 大 脑 选 择 性 地 过 滤 
掉 。 像 休眠 的 火山 一 样 ， 它 拥有 巨大 的 存储 独 的 或 潜在 的 能 量 ， 只 是 处 
于 休眠 状态 ， 在 未 来 的 某 个 时 刻 能 量 总 会 爆发 。 同 理 ， 记 忆 的 东 一 特定 
的 基本 用 途 完成 后 ， 记 忆 的 价值 仍 有 ， 只 是 处 于 休眠 状态 ， 束 像 休 虐 的 


火山 一 样 ， 直 到 它 被 再 利用 并 再 次 实现 新 的 价值 。 记 忆 价值 应 该 是 其 各 
种 用 途 价值 的 总 和 ， 而 没有 说 实现 的 用 途 价值 便 古 记忆 的 潜在 价值 ， 也 
就 是 这 部 分 潜在 价值 处 于 休眠 状态 。 潜 在 价值 的 内 涵 说 明 ， 大 脑 应 尽 可 
能 多 地 收集 记忆 并 尽 可 能 长 时 间 地 将 其 保存 。 


依附 性 和 可 存储 性 是 记忆 的 基本 特征 ， 这 两 个 特征 都 说 明 记 忆 必 须 
依附 于 一 定 介 质 而 存在 ， 记 忆 只 有 首先 被 存储 了 ， 之 后 才能 被 利用 和 继 
承 。 记 忆 人 存储 是 记忆 休眠 的 前 提 条 件 和 物质 基础 ， 没 有 记忆 的 存储 ， 也 
就 不 能 被 再 利用 ， 记 忆 也 随 存储 介质 的 销毁 而 消 志 ， 记 忆 休眠 也 就 无 从 
谈 起 。 因 为 存储 空间 的 不 足 ， 许 多 资源 的 生命 进程 被 人 为 终止 。 记 忆 存 
储 技术 的 出 现 与 进步 对 记忆 休眠 的 出 现 及 记忆 休眠 程度 的 提高 起 到 决定 
性 作用 。 


记忆 休眠 的 目的 是 对 其 再 利用 ， 使 其 实现 记忆 增值 。 要 实现 记忆 增 
值 必须 解决 两 个 方面 的 问题 : 一 是 记忆 资源 的 存 取 ; 二 是 记忆 资源 的 建 
设 和 开发 ， 即 记忆 处 理 。 对 特定 主体 而 言 ， 处 于 记忆 休眠 状态 的 记忆 大 
多 属于 老化 记忆 ， 记 忆 价值 极 低 ， 如 果 没 有 与 其 他 关联 记忆 有 再 组 织 ， 其 
将 长 期 休眠 。 记 忆 处 理 对 于 处 于 记忆 休眠 状态 的 记忆 能 人 否 再 利用 及 其 利 
用 程度 起 着 主导 作用 ， 即 记忆 复苏 的 出 现 及 程度 与 记忆 组 织 和 处 理 撤 术 
的 发展 妃 姑 相 关 。 记 忆 存 储 技 术 和 记忆 处 理 技 术 是 两 个 最 关键 的 记忆 技 
术 ， 也 就 是 说 关键 记忆 技术 的 有 发 明和 进步 影响 着 人 类 对 记忆 的 处 置 一 一 
清除 或 存储 ， 同 时 也 影响 着 记忆 的 再 利用 ， 即 关键 记忆 技术 的 出 现 和 发 
展 与 记忆 休眠 和 记忆 复苏 的 出 现 及 其 程度 有 着 密 切 关 系 。 


结构 决定 功能 ， 功 能 反映 纺 构 的 状态 。 束 如 同 金刚 石 与 石墨 都 是 兢 
的 同 素 异形 体 ， 其 硬度 却 有 天 壤 之 别 ， 其 本 质 原因 束 是 碳 原子 排列 顺序 
不 同 。 在 记忆 集合 中 ， 记 忆 自 身 的 结构 及 记忆 相互 之 间 的 结构 都 决定 了 
记忆 集合 的 组 成 ， 同 样 也 就 影响 了 其 功能 和 效用 。 除 了 必 不 可 少 的 几 种 
反应 物质 ， 在 一 个 化 学 反应 中 ， 还 需要 发 生 该 反应 的 场所 (比如 试管 、 
烧杯 和 烧瓶 ) 、 加 热 器 及 催化 剂 等 反应 条 件 。 


由 于 大 脑 存 储 信 息 的 先天 不 足 ， 面 对 海量 信息 ， 人 类 只 能 望 洋 兴 
疏 ， 只 会 考虑 如 何 清理 所 谓 的 无 用 记忆 ， 实 际 被 清理 的 无 用 记忆 纺 含 背 
大 量 的 价值 ， 记 忆 生 命 大 多 面临 消亡 ， 很 难得 到 延续 。 在 大 数据 技术 的 
牵引 下 ， 记 忆 存 储 与 记忆 处 理 并 重 ， 记 忆 和 再 利用 特别 是 老化 记忆 的 再 利 
用 成 为 可 能 ， 由 此 记忆 会 出 现 多 次 或 无 限 次 生命 延续 的 现象 。 


记忆 在 首次 被 挖掘 利用 基本 价值 之 后 ， 仍 存在 很 多 潜在 价值 ， 但 由 
于 记忆 技术 和 记忆 意识 ， 大 多 被 人 为 地 男 上 记忆 生命 的 句号 ， 面 对 与 日 
俱 增 的 海量 记忆 而 感觉 无 记忆 可 用 ， 或 者 找 不 到 自己 所 需要 的 记忆 。 记 
忆 利 用 一 记忆 休眠 一 休眠 复苏 一 记忆 再 利用 一 记忆 休眠 一 记忆 复苏 ， 这 
个 循环 在 传统 记忆 技术 条 件 下 不 存在 或 者 只 会 循环 几 次 ， 而 在 大 数据 时 
代 ， 妆 我 们 拥有 了 释放 记忆 隐藏 价值 的 理念 和 工具 ， 将 处 于 记忆 休 虐 的 
大 量 老 化 记忆 再 开发 再 利用 ， 这 个 循环 不 再 是 几 次 或 者 几 十 次 ， 而 是 无 
限 次 。"E/ 


(三 ) 遗 扎 也 是 一 种 学 习 


遗 筷 是 人 类 的 天 性 。 从 古 至 今 ， 人 们 不 断 答 试用 本 能 、 语 言 、 绘 
画 、 文 本 、 媒 体 、 介 质 来 记 住 知识 。 干 年 以 来 ， 遗 忘 始终 比 记 忆 简 单 ， 
成 本 也 更 低 。 三 遗 筷 是 记忆 中 的 一 个 特殊 功能 ， 人 类 的 感觉 需 官 接收 到 
的 信息 非常 多 ， 而 遗 筷 使 得 人 只 保留 重要 的 、 相 关 的 信息 。 记 忆 心 理学 
家 指出 ， 遗 起 并 不 是 一 种 疾病 ， 适 当 的 遗 态 对 个 体 来 讲 是 必要 的 ， 并 且 
也 有 利于 个 体 的 号 心 健康 。 在 许多 情境 中 ， 努 力 记 住所 有 信息 的 回忆 所 
呈现 出 来 的 效果 是 非常 闫 的 ， 如 果 能 够 学 会 中 所 比 拥有 “记忆 术 ” 更 有 价 
值 。 


根据 目前 大 脑 研究 者 对 解释 记忆 的 生理 基础 所 提出 的 理论 ， 人 类 在 
记忆 的 时 候 ， 神 经 元 之 间 会 建立 新 的 特异 的 突 触 联 系 。 当 人 要 记忆 多 件 
事物 的 时 候 ， 这 些 单 个 的 突 触 联系 束 会 形成 “网 络 ”。 网 络 禹 来 的 好 处 


征 ， 当 信息 需要 被 读 取 的 时 候 ， 过 程 的 切入 点 并 不 一 定 是 该 信息 本 刁 ， 
还 可 以 是 该 网 络 上 的 其 他 市 点 。 再 遵循 这 个 切入 节点 与 所 需 信息 的 市 皮 
之 间 的 连接 (该 过 程 被 称 为 联想 ) ， 大 脑 就 可 以 同样 得 到 需要 的 记忆 信 
恩 ， 并 且 将 它 装 载 到 “内 存 ” 中 ， 这 也 解释 了 单一 事件 与 其 他 事件 建立 的 
联系 越 多 ， 就 越 不 容易 被 遗 迄 。 三 


人 类 大 脑 不 像 摄 影 机 那样 机 械 记录 ， 记 忆 的 目标 并 非 随 着 时 间 推 移 
去 传递 最 准确 的 信息 ， 而 是 通过 掌握 最 有 价值 的 信息 来 指导 和 优化 智能 
决策 ， 起 记 或 许 更 有 助 于 人 们 日 后 做 出 最 佳 判断 。 人 们 总 认为 ， 好 的 记 
忆 力 就 是 永远 不 会 筷 记 东西 ， 能 够 长 时 间 清 晰 地 记 住 更 多 信息 。 心 理学 
家 的 观点 却 正好 相反 ， 他 们 认为 大 脑 正 积极 努力 地 瑟 记 ， 环 记 东 西 也许 
可 以 帮助 我 们 “操纵 ”一 个 随机 和 不 断 变 化 的 世界 。 息 记 不 相干 的 细 市 是 
大 脑 的 一 项 重要 工作 ， 可 以 让 它 把 注意 力 集中 在 那些 有 助 于 现实 决策 的 
童 思 上面 。 


好 记性 不 等 于 记 住所 有 事情 。 遗 未 不 仅 有 助 于 我 们 在 单一 信息 里 过 
度 泛 化 ， 也 有 助 于 我 们 驾驭 这 个 从 未 止步 的 世界 。 如 果 大 脑 拥 有 完善 的 
记忆 ， 那 么 不 再 遗 瑟 的 后 条 比 人 们 建立 并 维护 多 年 的 声誉 遭受 一 次 正面 
攻击 的 后 果 更 深远 ， 也 更 让 人 苦恼 。 如 果 我 们 过 去 所 有 的 行为 ， 无 论 是 
个 违法 ， 都 一 直 存 在 ， 那 么 当 我 们 进行 思考 与 决策 时 ， 怎 样 才能 从 目 己 
的 过 去 中 解脱 出 来 呢 ? 完善 的 记忆 会 使 我 们 对 符 他 人 像 对 符 目 己 那 样 个 


宽容 吗 ? (3 


遗 起 是 一 种 自然 生物 机 制 ， 通 过 删除 记忆 去 除 不 必要 的 信息 ， 我 们 
才 得 以 维持 正常 的 神经 系统 。 从 生物 学 的 角度 看 ， 遗 筷 可 以 减轻 大 脑 的 
负担 ， 降 低 脑 细胞 的 消耗 速度 。 我 们 的 大 脑 细胞 以 每 天 10 万 个 左右 的 速 
度 消 亡 ， 而 如 采 我 们 不 能 筷 记 那些 不 开心 的 事情 ， 脑 细胞 的 死亡 速度 会 
增加 几 倍 甚 至 几 十 倍 ， 这 就 大 大 增加 了 大 脑 的 负担 。 址 未 能 够 减少 这 样 
的 消耗 ， 让 目 己 不 那么 痛 特 。 筷 抒 信 息 中 不 重要 的 部 分 ， 可 以 减少 信息 
的 元 杂 度 ， 从 而 减轻 记忆 和 认 知 负担 ， 这 就 相当 于 清除 手机 缓存 ， 删 除 


不 常用 的 文档 ， 腾 出 更 多 空间 。( 


科学 研究 发 现 ， 新 增 的 神经 元 是 偷 走 大 脑 记忆 的 “ 真 凶 ”。 哺 乳 动物 
在 成 长 过 程 中 ， 大 脑 中 有 两 个 其 他 动物 没有 的 区 域 在 不 断 地 产生 神经 
元 ， 海 马 环 路 是 其 中 一 个 。 新 的 神经 元 在 海马 环 路 中 不 断 生 成 ， 激 烈 地 
争夺 着 “地 租 ”， 改 变 预先 存在 的 神经 元 连接 ， 建 立新 的 神经 元 连接 ， 严 
重 扰乱 了 储存 旧 记 忆 的 大 脑 电路 。 这 些 早 期 的 连接 大 多 数 会 被 “修剪 
兵 >， 导 致 神经 元 连接 被 毁 坏 ， 使 这 部 分 记忆 补遗 生 。 二 


对 无 价值 的 旧 信息 或 不 相关 的 信息 的 遗 未 主要 通过 有 意 遗 未 范式 来 
研究 三， 有意 遗 未 的 机 制 之 一 是 削弱 或 消除 编码 记忆 中 神经 元 之 间 的 突 
触 连 接 ， 强 行 让 人 遗 态 。 关 于 有 意 遗 态 的 机 制 有 多 种 解释 ， 比 如 双 过 程 
理论 、 注 意 抑 制 理论 、 编 码 理论 和 提取 抑制 理论 ， 这 些 理论 从 不 同 角 度 
解释 了 有 意 遗 忘 的 机 制 。 其 中 ， 编 码 理论 对 有 意 遗 忘 效 应 的 解释 得 到 了 
很 多 的 实证 支持 。 


编码 理论 义 称 选择 性 复述 理论 ， 有 选择 的 复述 是 造成 记忆 差异 的 原 
因 。 当 记 住 指示 符 出 现时 ， 被 试 会 继续 复述 刚才 呈现 过 的 项 目 ， 当 遗 坊 
指示 符 出 现时 就 不 再 复述 ， 这 吏 造 成 了 记忆 项 的 编码 比 遗 筷 项 的 编码 更 
加 精细 ， 这 种 有 选择 的 复述 会 形成 一 种 注意 选择 机 制 ， 即 当 被 试 意识 到 
一 些 项 目 要 被 态 记 时 ， 他 们 会 尽 最 大 努力 记 住 要 求 记忆 的 项 目 ， 而 在 要 
求 遗忘 的 项 目 上 花费 最 小 的 精力 。 三 


遗 鲜 不 仅 对 人 类 很 重要 ， 对 其 他 生物 也 非常 重要 ， 甚 至 可 以 说 对 所 
有 生命 都 很 重要 。 实 际 上 ， 记 忆 困 难 可 能 是 热力 学 第 二 定律 的 一 个 隐 含 
结 末 。 热 力学 第 二 定律 是 最 基本 的 目 然 规 律 之 一 ， 它 说 明了 宇宙 《作为 
一 个 热力 学 系统 ) 的 随机 性 必然 会 增 大 ， 对 此 我 们 军 无 办 法 。 当 然 ， 我 
们 能 够 人 为 地 消除 一 些 随 机 性 ， 比 如 通过 将 气体 分 子 放 回 密闭 的 容器 。 
但 是 这 么 做 需要 更 多 的 努力 ， 用 物理 学 家 的 术语 来 讲 ， 这 需要 能 量 ， 如 
此 便 导 致 了 比 我 们 开始 时 更 大 的 整体 随机 性 。 不 是 容器 内 部 的 随机 性 ， 


而 是 容 占 外 部 的 随机 性 。 创 建 记忆 是 在 我 们 的 大 脑 内 部 制造 菜 种 秩序 ， 
需要 能 量 。 为 外 ， 遗 饼 也 可 以 是 随机 的 ， 不 需要 噩耗 能 的 排序 。 因 
此 ， 从 根本 上 讲 ， 物 理学 也 告诉 我 们 ， 记 忆 不 像 (随机 的 ) 遗 筷 ， 往 往 
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第 二 下 
删除 ， 数 据 取 舍 之 道 


(一 ) 数字 记忆 是 生物 记忆 的 延伸 


有 史 以 来 ， 对 人 类 而 言 ， 遗 筷 一 直 是 和 常态， 而 记忆 才 是 例外 。 三 然 
而 ， 在 信息 时 代 ， 我 们 在 每 天 的 工作 和 生活 中 都 会 接触 到 大 量 的 信息 ， 
这 些 信 息 来 目 学 校 、 工 作 单 位 、 医 院 、 超 市 、 酒 店 等 。 信 息 类 型 也 是 多 
种 多 样 ， 包 括 文字 、 图 像 、 声 首 、 视 频 等 。 由 于 我 们 的 大 脑 对 信息 遗志 
的 这 种 生物 属性 ， 实 际 上 ， 只 有 很 少 的 一 部 分 信息 能 够 被 保存 下 来 ， 男 
外 一 些 则 是 以 纸 质 或 是 数字 形式 保存 。 


事实 上 ， 在 这 个 信息 爆炸 的 时 代 ， 人 们 都 想 获得 更 好 、 更 全 面 的 记 
忆 ， 和 硕 望 能 够 在 需要 的 时 候 立 即 清晰 地 回忆 起 过 去 所 发 生 的 事件 ， 因 为 
这 会 给 我 们 的 生活 和 工作 提供 更 多 的 便利 。 例 如 ， 当 患者 因 过 敏 去 医院 
就 诊 时 ， 能 立即 准确 地 告诉 医生 过 去 一 周 吃 过 的 食物 ， 当 文学 研究 者 想 
要 了 解 莎士比亚 的 生平 时 ， 只 需要 简单 地 打开 他 的 数字 化 记忆 便 可 知晓 
详细 信息 。 为 了 减少 记忆 遗忘 友 生 的 概率 ， 人 们 试图 通过 各 种 辅助 措施 
来 改善 这 一 现状 ， 如 商场 货架 上 摆 放 的 各 类 增强 记忆 的 保健 品 。 与 增强 
记忆 相关 的 产业 规模 也 在 不 断 扩 大 ，2007 年 ， 美 国 “ 健 脑 计划 ”和 “神经 
软件 ”的 相关 市 场 规模 已 经 达到 2.25 亿 美元 ， 各 式 帮 助 记忆 的 图 书 、 记 忆 
术 、 保 健 品 、 计 算 机 软件 和 设备 层出不穷 。 


想 要 拥有 更 完善 的 数字 化 记忆 这 一 想法 由 来 已 入 ， 早 在 1945 年 计算 
机 还 是 一 个 刚 发 明 不 久 的 庞然大物 时 ， 美 国 科学 家 就 设想 过 一 种 人 们 可 
以 保存 自己 全 部 信息 的 个 人 媒体 库 。 个 人 媒体 库 的 多 数 内 容 都 存储 在 缩 


微 胶 卷 上 上， 通过 不 断 地 插入 胶卷 以 增加 新 内 容 。 各 类 图 书 、 图 片 、 期 刊 
和 报纸 都 通过 此 方法 在 个 人 媒体 库 中 输入 和 输出 ， 两 业 信 函 也 不 例外 。 


科学 家 的 设想 在 今天 看 来 似乎 吏 是 一 人 台 集 成 了 麦 苑 风 、 多 显示 屏 、 
扫 揪 仪 等 设备 的 台式 电脑 。 随 着 数字 技术 与 全 球 网 络 的 及 展 ， 数 字 化 时 
代 的 到 来 使 得 保存 全 面 的 数字 化 记忆 成 为 可 能 和 现实 。1995 年 ， 比 尔 : 
新 次 在 其 《未 来 之 路 》 中 也 写 道 :“ 总 有 一 天 ， 我 们 能 够 记录 所 见 所 闻 
的 一 切 。”1998 年 ， 美 国 计 算 机 科学 家 将 全 面 数 字 化 记忆 付 诸 实 践 ， 创 
建 了 世界 上 第 一 台 存 储 “ 一 个 人 一 生 中 所 有 信息 ”的 信息 设备 ， 该 信息 设 
备 使 用 可 穿戴 相机 、 录 音 笔 、GPS 全球 定 位 系统 ) 等 设备 来 帮助 个 人 
记录 生活 中 的 信息 ， 标 志 着 全 面 数字 化 时 代 的 到 来 。 三 


全 面 数字 化 时 代 ， 人 们 努力 想 要 记 住 的 信息 属于 不 同 的 形式 ， 包 括 
数字 形式 和 非 数 字形 式 。“ 数 字 化 记忆 ? 指 运用 多 种 数字 存储 设备 将 人 类 
社会 生活 中 的 各 种 信息 都 数字 化 并 保存 起 来 。 相 对 于 生物 记忆 ， 数 字 化 
记忆 可 以 看 作对 生物 记忆 的 巨大 延伸 。 为 了 更 好 地 了 解数 字 化 记忆 的 延 
伸 特 性 ， 有 必要 比较 一 下 生物 大 脑 的 记忆 存储 方式 与 计算 机 存储 数据 方 
式 之 间 的 差异 。 


生物 大 脑 的 记忆 是 通过 神经 元 或 神经 细胞 之 间 的 相互 关联 的 模式 存 
储 的 ， 而 计算 机 则 依 菲 一 系列 微 电 子 元 件 的 开局 或 天 闭 来 保存 数据 。 大 
脑 和 计算 机 都 能 存储 信息 、 处 理 信 息 ， 并 能 根据 信息 的 状态 决定 具体 的 
行动 步骤 。 基 于 这 些 原理 ， 我 们 可 以 认为 这 两 个 系统 都 拥有 记忆 能 
但 这 种 相似 性 仅 停 留 在 粗略 的 表层 。 一 旦 揭 开 其 神秘 的 面纱 ， 我 们 就 会 
发 现 生 物 记 忆 与 数字 化 记忆 之 间 存 在 巨大 的 差异 。 


作为 大 脑 的 所 有 者 ， 人 类 总 认为 记忆 是 一 种 孤立 的 资源 ， 但 这 只 是 
大 脑 呈 现 的 一 种 假象 。 研 究 生 物 记忆 的 科学 家 们 将 人 类 记忆 描述 为 三 种 
系统 ， 即 程序 记忆 、 语 义 记忆 和 情景 记忆 。 其 中 ， 对 程序 记忆 来 说 ， 任 
何 辅助 都 无 助 于 人 类 加 强 这 方面 的 记忆 。 但 是 ， 人 类 的 记忆 和 情景 模式 


能 通过 数字 化 记忆 扩展 。 众 所 周知 ， 生 物 记 忆 出 错 在 所 难免 ， 但 它 的 严 
重 性 丽 怕 还 是 要 超 乎 我 们 的 想象 。 神 经 科学 家 的 研究 早 己 表明， 那些 情 
景 记 忆 会 渐渐 失真 ， 与 真实 的 情况 相 比 ， 错 误 的 记忆 似乎 更 为 清晰 。 三 


在 全 面 数 字 化 时 代 ， 计 算 机 能 够 驾 轻 束 熟地 将 所 有 事物 都 精确 地 记 
录 在 数字 化 记忆 库 中 ， 大 脑 却 无 法 做 到 这 一 点 。 大 脑 在 记忆 某 件 事情 
时 ， 它 包含 的 记忆 实际 上 只 是 雄 片 化 的 、 令 人 印象 深刻 的 片段 。 之 后 ， 
在 需要 重新 检索 该 段 记忆 时 ， 它 会 使 用 一 个 大 框架 整合 原 有 的 片段 集 
合 。 于 是 ， 当 这 些 记 忆 再 次 浮现 于 我 们 的 脑海 中 时 ， 我 们 会 误 以 为 这 是 
份 高 保 真 的 记录 。 其 实 ， 对 存储 在 大 脑 中 的 全 部 记忆 而 言 ， 都 具备 渐 
进 、 突 变 和 失真 的 可 能 性 ， 只 有 少数 内 容 是 千 真 万 确 的 ， 其 他 部 分 惑 像 
古 由 一 些 道具 、 布 景 、 群 众 、 演 员 和 影视 素材 组 合 在 一 起 的 新 的 情景 
剧 。 


对 人 类 大 脑 来 说 ， 记 忆 是 例外 ， 遗 筷 是 常态 。 对 计算 机 而 言 ， 记 忆 
是 常态 ， 遗 忘 才 是 例外 。 生 物 记 忆 是 主观 的 、 不 完整 的 、 带 有 情感 色彩 
的 ， 有 具备 自我 过 滤 、 主 观 写意 和 可 变 的 特性 ;数字 化 记忆 则 大 为 不 同 ， 
数字 化 记忆 是 客观 的 、 冷 静 的 、 完 全 陈述 事实 的 ， 数 字 化 记忆 没有 任何 
假象 ， 没 有 丝毫 偏差， 有 具备 高 度 的 准确 性 。 与 生物 记忆 相 比 ， 数 字 化 记 
忆 不 会 困 在 橱柜 和 鞋 盒 中 ， 它 们 可 以 在 台式 机 或 大 屏幕 上 大 放 异 彩 。 它 
们 还 可 以 和 我 们 一 起 去 旅行 ， 陪 伴 我 们 ， 让 我 们 再 次 见 到 那些 我 们 珍爱 
的 面孔 ， 重 温 往 背 的 欢声 笑语 。 这 也 就 是 说 ， 数 字 化 记忆 已 经 成 为 生物 
记忆 的 一 种 无 限 延伸 。 三 


(二 ) 全 面 数字 存储 下 的 信息 失控 


数据 存储 作为 信息 记录 的 主要 方式 ， 是 人 类 于 百年 来 都 在 探索 和 应 
用 的 主题 。 从 5 “000 年 前 埃及 人 把 象形 文字 刻 在 石碑 上 开始 ， 人 类 就 把 
言 轧 用 抽象 的 方式 ， 以 文字 、 绘 画 等 形式 记录 在 特定 的 载体 上 ， 如 甲 


骨 、 竹 简 、 纸 张 等 ， 实 现 信息 的 保存 和 传播 。 计 算 机 面世 以 来 ， 人 类 社 
会 进入 了 一 个 以 数字 化 为 特征 的 历史 性 阶段 ， 人 们 将 各 种 形式 的 信息 以 
数字 的 形式 进行 处 理 、 传 输 和 人 存储， 再 将 其 转换 为 各 种 形式 的 信息 加 以 
利用 。 大 规模 的 数字 化 使 得 信息 总 量 呈 爆炸 式 增长 ， 特 别 是 互联 网 的 兴 
起 和 普及 ， 大 大 方便 了 信息 的 流通 交换 。 


无 论 是 个 人 的 数据 资料 、 商 业 运 营 文 件 ， 还 是 保证 国家 和 社会 正常 
运转 的 数据 (气象 数据 、 经 济 统计 数据 、 石 油 勘 探 数 据 等 ) ， 都 离 不 开 
各 种 信息 数据 的 传输 、 处 理 和 存储 。 社 会 数据 的 总 量 在 过 去 几 十 年 呈现 
指数 级 增长 ， 在 短 时 期 内 还 没有 发 现 什么 因素 能 够 放 绥 这 种 增长 速度 。 
摩尔 定律 曾 断 言 ， 处 理 需 的 性 能 会 每 18 个 月 增长 一 倍 。 相 应 地 ， 通 过 乔 
干 年 的 观察 ， 网 络 带 宽 和 存储 容量 增长 也 都 具有 指数 型 增长 的 规律 。 图 
灵 奖 获得 者 詹姆斯 -格雷 提出 一 个 经 验 定律 网 络 环境 中 每 18 个 月 产生 
的 数据 量 等 于 在 此 之 前 所 有 数据 量 之 和 。 因 此 ， 对 信息 存储 的 需求 将 是 
无 止境 的 ， 数 字 存 储 技术 在 这 种 强烈 需求 的 驱动 下 得 到 了 空前 的 用 展 。 


20 世 纪 40 年 代 初 期 ， 当 数字 处 理 技术 刚刚 开始 起 步 的 时 候 ， 数 字 存 
储 的 代价 极其 高 唱 。 第 一 台 成 功 的 商用 计算 机 UNIVAC “通用 上 自动 计算 
机 ) 的 主 存储 器 有 12 000 个 字符 〈 字 节 ) ， 同 时 一 盒 磁 带 驱 动 着 它 的 大 
容量 存储 器 。 磁 带 是 一 项 很 有 用 的 创新 ， 但 是 其 价格 昂贵 ， 提 取 数 据 的 
速度 也 很 慢 。 一 时 间 ， 人 类 在 数据 的 存储 方面 面临 严峻 的 挑战 ， 海 量 数 
据 存储 也 逐渐 成 为 制约 人 类 社会 经 济 发 展 的 瓶颈 。 


随 着 科学 拉 术 的 发 展 ， 数 字 存 储量 的 增长 速度 已 经 远 远 大 于 人 类 目 
前 存储 资料 的 增长 速度 。 几 十 年 前 ， 出 于 价格 成 本 的 考虑 ， 我 们 需要 非 
常 谨慎 地 考量 到 底 应 该 保存 哪些 信息 。 然 而 ， 最 近 十 几 年 ， 科 技 和 网 络 
在 飞速 友 展 ， 与 此 同时 带 来 了 数字 存储 量 的 大 幅 增 加 和 价格 的 大 幅 下 
降 。 由 于 数字 存储 容量 、 所 占 空间 大 小 和 所 需要 的 费用 的 极 大 改变 ， 在 
生活 中 “保存 一 切 ” 成 为 可 能 ， 网 络 和 云 存储 的 兴起 更 使 得 人 们 能 够 利用 
多 种 设备 从 不 同 的 地 方 记录 和 管理 保存 的 数字 信息 。 保 存 完整 的 数字 化 


记忆 不 仅 能 够 帮助 我 们 实现 更 完善 、 更 及 时 的 信息 管理 以 及 满足 信息 需 
求 ， 而 且 能 够 保存 较为 完整 的 生命 记录 ， 让 我 们 在 虚拟 世界 实现 生命 不 
朽 。 


当前 ， 数 字 技 术 已 经 从 根本 上 改变 了 能 够 被 记 住 的 信息 内 容 ， 改 变 
了 记 住 信息 的 方式 ， 也 改变 了 记 住 信 息 所 要 付出 的 代价 。 随 着 经 济 约束 
的 消失 ， 我 们 已 经 开始 大 量 增加 存储 到 数字 外 部 存储 圳 中 的 信息 量 。 三 
数字 存储 器 是 伴随 着 互联 网 技术 的 发 展 和 数字 时 代 的 到 来 而 产生 的 新 的 
数据 存储 方式 ， 它 的 成 功 问 世 为 数字 存储 提供 了 一 种 廉价 而 可 靠 的 存储 
可 能 ， 使 得 当前 数字 存储 成 本 得 以 大 幅度 降低 ， 以 至 于 在 数字 存储 器 上 
存储 信息 ， 即 便 是 全 屏 视频 ， 比 纸张 、 胶 片 与 磁带 这 类 模拟 存储 信息 的 
方式 还 便宜 ， 这 使 得 我 们 保存 和 生成 海量 信息 成 为 可 能 。 


依托 日 益 廉 价 的 数字 存储 器 ， 数 字 化 记忆 以 其 数字 化 、 易 于 提取 和 
全 球 窗 盖 的 特点 深刻 地 影响 着 人 类 的 生活 。 它 使 得 人 类 能 够 开创 性 地 利 
用 巨大 的 数字 信息 资源 ， 形 成 了 一 种 创造 、 再 创造 和 共享 的 时 代 文 化 。 
数字 化 记忆 的 超 强 信息 存储 能 力 为 人 类 提供 了 一 种 信息 延续 和 保存 的 集 
略 。 与 此 同时 ， 我 们 依然 有 理由 担忧 ， 随 着 大 数据 能 够 越 来 越 精确 地 预 
测 世 界 的 变化 以 及 我 们 所 处 的 位 置 ， 它 对 我 们 的 隐私 和 决策 过 程 也 造成 
影响 。 如 果 缺 少 适当 的 数据 管理 规程 ， 包 括 长 期 并 可 靠 地 进行 适当 的 
备份 ， 数 字 化 存储 的 好 处 就 无 法 完全 显现 出 来 。 正 如 专家 所 说 ， 不 像 硬 
盘存 储 空间 的 成 本 那样 ， 这 些 数据 管理 的 成 本 不 会 每 隔 一 年 半 到 两 年 就 
减少 一 半 。 很 显然 ， 即 便 牢 牢 遵守 这 些 限制 ， 不 仅 个 人 ， 就 算 像 公 共 组 
织 这 类 私密 的 机 构 也 遭遇 了 永久 而 广泛 的 存储 造成 的 后 果 。 


数字 化 记忆 存储 不 仅 支 持 了 等 级 森严 的 机 构 和 社会 的 控制 ， 还 会 去 
找 求 对 他 们 目 身 的 文 持 ， 从 而 在 信息 权利 分 配 问题 上 加 剧 现 有 的 不 平 
等 。 其 次 ， 数 字 技 术 提 高 了 便捷 性 ， 但 也 使 人 们 置 于 数字 技术 的 监视 
下 ， 引 发 了 隐私 保护 的 危机 。 由 于 数字 化 记忆 的 可 访问 性 和 持久 性 ， 信 
恩 权 利 不 仅 从 个 人 手 里 转移 到 一 些 知名 的 交易 方 手 里 ， 而 且 转移 到 了 其 


他 不 为 人 知 的 机 构 手 里 。 这 些 数据 一 旦 上 传 网 络 就 被 永久 保存 ， 我 们 也 
就 老 失 了 对 信息 权利 的 控制 力 。 


事实 上 ， 数 字 化 存储 在 给 入 们 融 来 生活 与 工作 便利 的 同时 ， 也 因 其 
全 姑 化 、 强 记忆 的 特性 对 人 们 形成 了 信息 压制 ， 数 字 化 存储 造成 的 这 种 
遗 感 缺失 导致 了 一 个 “没有 安全 和 时 间 的 未 来 "引发 了 诸多 社会 问题 。 
因此 ， 依 据 何 种 理念 ， 应 用 何 种 技术 恢复 记忆 的 遗 坪 本 性 、 在 记忆 与 遗 
忘 之 间 寻 找平 衡 点 ， 就 成 为 数字 化 时 代 信息 取 售 面临 的 核心 问题 ， 也 成 
为 殉 服 数字 化 时 代 信 息 压制 的 主要 进 路 。 


(三 ) 数字 记忆 与 信息 取舍 


处 于 信息 大 爆炸 时 代 ， 信 息 存 储 、 信 息 分 享 和 数据 挖掘 手段 可 以 低 
成 本 、 高 效率 地 将 大 量 、 高 速 、 多 样 的 原始 数据 存储 下 来 ， 并 且 可 以 随 
时 进行 分 析 和 处 理 。 这 使 人 类 实现 了 多 年 来 一 直 奶 寻 的 完整 数字 化 记忆 
状态 成 为 现实 ， 如 今 的 世界 已 经 被 成 功 地 设置 为 记忆 模式 ， 在 孚 受 数字 
化 记忆 春来 的 好 处 时 ， 我 们 依然 不 乏 担忧 。 数 字 化 记忆 打破 了 原 有 的 记 
忆 与 遗 筷 的 平衡 ， 使 我 们 失去 了 人 类 最 重要 的 遗 未 能 力 ， 对 数字 化 记忆 
的 依赖 束缚 了 我 们 从 中 学 习 、 成 长 和 发 展 的 能 


虽然 数字 化 记忆 可 获取 事物 的 全 部 细节 ， 但 是 并 未 对 信息 进行 任何 
归纳 处 理 ， 而 是 直接 存储 了 原始 数据 ， 并 且 不 对 信息 进行 抽样 ， 而 是 采 
用 整体 数据 。 由 于 数据 本 身 的 价值 密度 相对 较 低 ， 人 们 从 海量 信息 中 获 
取 真 正 有 用 的 信息 越发 困难 。 从 某 种 程度 上 来 说 ， 数 字 化 记忆 成 为 这 个 
时 代 信 息 取 售 的 绊脚石 。 如 采 说 数字 化 记忆 和 是 我 们 取舍 信息 的 一 道 屏 障 
的 话 ， 那 么 面 对 完整 的 数字 化 记忆 ， 我 们 应 该 如 何 对 信息 进行 取舍 以 获 
取 有 价值 的 信息 呢 ? 


目前 ， 人 类 进行 信息 取舍 的 基本 理念 是 一 种 二 元 论 的 模式 ， 即 以 保 


存 与 删除 为 对 立 范畴 的 一 种 理论 建构 ， 该 理论 模式 要 求 我 们 对 海量 数据 
依据 某 种 价值 目标 做 出 非 此 即 彼 、 非 存 即 舍 的 选择 ， 并 相应 地 采用 数字 
化 限制 、 保 护 信息 隐私 权 、 建 设 数字 隐私 权 基 础 设施 、 调 整 人 类 的 现 有 
认 知 、 打 造 展 性 的 信息 生态 、 完 全 语 境 化 等 方法 。 其 中 ， 前 三 种 方法 旨 
在 预防 或 减轻 数字 化 记忆 对 信息 权力 的 挑战 ， 后 三 种 方法 主要 是 预防 或 
减轻 数字 化 记忆 对 时 间 所 构成 的 挑战 。 这 些 信息 取舍 方法 都 具有 明确 的 
价值 导向 ， 在 茶 种 程度 上 具有 一 定 的 成 效 。 


数字 化 节制 。 数字化 节制 是 在 数字 化 时 代 ， 人 们 为 了 不 失去 信息 控 
制 权 ， 用 市 制 .二 输入 个 人 信息 的 方法 来 避免 被 其 露 在 无 边 的 数字 监狱 
中 。 数 字 化 而 制 的 信息 掌控 权 在 于 个 人 ， 是 借助 于 个 人 的 信息 取舍 制造 
一 个 人 为 的 信息 遗志 情 境 ， 以 提升 数字 化 记忆 有 效 性 的 方法 。 但 是 ， 这 
种 方法 受 个 人 偏好 的 影响 过 大 ， 其 客观 性 会 大 打折 扣 ， 其 规范 性 也 无 法 
得 到 切实 的 保证 。 因 此 从 社会 规范 方面 和 公共 权利 方面 探索 一 条 以 信息 
遗 态 为 前 提 的 信息 取舍 之 路 就 成 为 一 种 更 具 建 设 性 意义 的 选择 。 


保护 信息 隐私 权 。 在 数字 化 时 代 ， 信 息 隐 私 权 三 不 仅 依赖 个 人 对 触 
犯 者 采取 行动 的 意愿 ， 而 且 依赖 法 律 系统 的 执行 能 力 。 简 言 之， 保护 信 
恩 隐 私 权 需要 一 个 精心 构建 的 法 律 机 制 来 实现 ， 从 法 律 的 视角 出 发 ， 用 
法 律 限定 信息 的 取舍 ， 保 护 信 息 隐 私 ， 这 种 权利 是 对 数字 化 记忆 中 的 信 
恩 控 制 权 问题 的 适当 回应 。 这 种 方法 认为 : “法 律 除 了 在 现实 生活 中 应 
该 规制 和 保护 我 们 的 生活 ， 还 要 在 网 络 世 界 保护 我 们 ， 规 定 使 用 他 人 的 
私人 数据 应 该 得 到 法 律 的 授权 且 要 具有 合理 的 目的 。” 


建设 数字 隐私 权 基 础 设施 。 建 设 数字 隐私 权 基 础 设施 是 用 技术 限制 
未 经 授权 的 信息 的 使 用 ， 是 解决 如 何 通 过 技术 手段 保护 数字 扩容 免 遭 非 
法 复制 和 传播 的 技术 架构 。 数 字 化 时 代 ， 版 权 的 范畴 里 ， 信 息 是 指 音 
乐 、 电 影 、 游 戏 、 数 字 图 书 等 ， 而 遗 筷 的 范畴 里 ， 信 息 是 任何 个 人 信 
忠 、 信 息 的 使 用 者 以 及 使 用 方式 。 这 需要 媒体 播放 器 检查 这 些 元 信息 ， 
并 拒绝 播放 未 获得 适当 授权 的 信息 内 容 。 也 惑 是 说 ， 数 字 化 时 代 建 设 数 


字 隐 私 权 基 础 设施 是 :“ 为 防止 信息 内 容 被 未 经 授权 的 设备 播放 或 复 
制 ， 和 内容 和 元 信息 间 币 被 加 密 ， 需 要 一 个 只 有 获得 授权 的 设备 才能 * 识 
别 ' 的 特殊 密 钥 ， 它 完全 是 建立 在 技术 上 的 。” 二 


调整 人 类 的 现 有 认 知 。 数 字 化 时 代 , “人 们 能 够 做 到 有 意识 地 忽略 
过 去 ， 接 受 人 类 是 永恒 变化 、 绝 非 一 成 不 变 的 事实 ， 那 么 所 有 信息 的 长 
期 存在 将 不 再 具有 那么 大 的 威胁 ”三 。 也 就 是 说 如 果 人 们 能 接受 过 去 的 
记忆 ， 就 调整 了 头脑 ， 调 整 了 目 身 的 认 知 机 制 ， 使 自己 适应 数字 化 记忆 
的 世界 ， 这 样 的 认 知 调整 将 会 消除 决策 不 明 或 反应 不 及 时 的 潜在 危险 。 
人 们 不 需要 通过 新 法 律 来 改变 社会 ， 不 需要 发 展 和 使 用 新 的 技术 架构 ， 
因为 必要 的 改变 及 生 在 我 们 的 头脑 中 。 而 且 通 过 重 塑 思考 、 评 估 和 决策 
的 方式 ， 人 类 可 以 用 适应 能 力 来 应 对 数字 化 记忆 ， 而 这 正 是 生物 演化 的 
根本 要 素 ， 适 应 变化 的 环境 。 


打造 良性 的 信息 生态 。 信 息 生 态 用 来 表达 生态 观念 和 日 渐 重要 与 复 
杂 的 信息 环境 之 间 的 联系 。 随 着 生态 学 在 社会 学 、 经 济 学 等 各 个 学 科 的 
渗透 , “信息 生态 ”概念 由 最 初 利用 信息 技术 来 研究 生态 学 发 展 为 人 、 社 
会 组 织 与 信息 环境 之 间 关 系 的 研究 。 信 息 生 态 是 杜绝 不 正当 使 用 信息 的 
一 剂 展 药 ， 它 规定 了 什么 信息 能 被 收集 、 存 储 ， 并 且 能 被 记忆 、 记 忆 多 
和 久 ， 是 一 种 有 意 的 约束 。 一 个 人 将 信息 委托 给 他 人 后 ， 一 旦 委托 的 目的 
达成 ， 信 息 的 接收 者 必须 将 其 删除 ， 它 以 法 律 作 为 支撑 ， 如 果 继 续 使 用 
该 信息 就 是 非法 的 ， 会 受到 相应 的 法 律 制裁 。 


完全 语 境 化 。 数 字 化 记忆 的 完全 语 境 化 需要 建立 比 现 有 的 技术 更 强 
的 技术 基础 设施 ， 能 更 全 面 地 搜集 、 保 存 和 提取 生活 中 的 各 种 信息 。 在 
完全 语 境 化 的 社会 中 ， 所 有 人 部 能 获取 有 关 任 何事 的 全 面 信息 ， 个 人 信 
恩 控 制 被 普遍 透明 度 所 亚 代 ， 创 造 了 一 个 反 监 视 的 世界 。 而 且 所 有 人 都 
能 获取 所 有 信息 ， 使 一 些 拥 有 各 种 技术 、 组 织 和 经 济 手 段 的 人 能 更 好 、 
更 深入 地 整合 信息 ， 从 而 催生 一 个 新 的 信息 有 权 者 与 无 权 者 格局 ， 不 平 
等 的 信息 权利 不 用 分 配 便 会 自动 生成 。 


上 述 6 种 二 元 论 的 方法 分 别 从 个 人 控制 信息 分 享 的 能 力 以 及 人 类 利 
用 信息 进行 决策 的 过 程 两 大 方面 入 手 ， 都 是 信息 非 此 即 彼 、 非 存 即 售 的 
方法 。 其 中 ， 数 字 化 和 节制、 保护 信息 隐私 权 和 建设 数字 隐私 权 基 础 设施 
是 为 了 应 对 信息 隐私 的 泄露 ， 解 决 数 字 化 记忆 中 信息 权利 困扰 的 三 元 论 
对 策 。 调 整 人 类 现 有 的 认 知 、 打 造 恨 性 的 信息 生态 和 完全 语 境 化 则 更 直 
接地 面 对 了 遗 起 终止 的 问题 ， 应 对 了 数字 化 记忆 中 时 间 的 挑战 。 
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-> 


(一 ) 数据 匹配 与 简约 


伴随 着 超 数 据 时代 的 到 来 ， 人 们 越 来 越 东 然 于 什么 才 是 自己 最 需要 
的 内 容 、 什 么 才 是 自己 现在 最 想得到 的 数据 。 作 为 信息 的 生产 者 ， 人 们 
需要 考虑 在 海量 数据 中 如 何 使 自己 的 信息 引起 用 户 群 体 的 注意 ， 而 不 至 
于 潭 没 在 超 数 据 时 代 的 信息 洪流 中 ， 这 是 一 件 难度 相当 大 的 工作 ; 同 
时 ,信息 的 获取 者 也 需要 在 互联 网 的 海量 信息 中 找到 自己 真正 需要 的 信 
让 ， 这 也 是 一 件 工 作 量 巨 大 的 事情 。 因 此 ， 如 何 实 现 面 向 海量 数据 环境 
的 热点 减 量 化 成 为 激活 数据 学 研究 的 重点 。 


所 谓 热 点 减 量化 是 数据 单元 目 激 活 后 ， 在 系统 层面 出 现 的 由 累 托 最 
优 状态 ， 是 公平 与 效率 的 “理想 王国 ”。 热 点 减 量化 就 是 实现 数据 处 理 资 
源 优化 配置 的 理想 路 径 . 三 ， 通 过 自诉 活 后 ， 对 所 有 数据 单元 活跃 状态 进 
行 清晰 的 层次 划分 ， 并 以 此 为 依据 进行 热点 的 过 滤 和 筛选 。 与 大 数据 时 
代 的 数据 处 理 一 样 ， 热 点 减 量化 是 超 数据 时 代 的 重要 信息 取 侈 方式 之 
一 ， 它 同样 遵循 了 大 数据 处 理 的 简约 原则 。 


所 谓 简 约 原 则 是 牛顿 创设 的 一 条 “ 极 简 主义 ”的 节约 规则 。 在 牛顿 看 
来 ， 神 奇 的 目 然 界 在 创设 过 程 中 选择 的 简单 性 和 对 烦琐 的 厌恶 ， 使 得 人 
类 也 形成 如 下 观念 :“ 在 用 很 少 的 东西 就 能 够 解决 问题 的 情况 下 ， 绝 不 
苑 力 费 神 和 兴 师 动 众 ” 要 始终 体现 大 目 然 所 遵循 的 简约 性 、 精 准 性 、 
合理 性 与 有 效 性 。 欲 达 此 目的 ， 就 需要 在 云 计算 或 大 数据 处 理 中 遵循 简 
约 原 则 ， 选 择 有 用 数据 ， 淘 汰 无 用 数据 ， 识别 有 代表 性 的 本 质数 据 ， 去 


除 细 术 未 节 或 无 意义 的 非 本 质数 据 。 要 能 够 确认 数据 之 间 的 巨大 差距 或 


兰 异 ， 以 及 鉴别 和 挑 出 那些 “以 一 当 十 ”的 数据 和 信息 。 二 


热点 减 量 化 遵循 大 数据 处 理 的 简约 原则 ， 这 是 否 表明 在 超 数据 时 代 
对 信息 取 合 方式 与 大 数据 时 代 的 方法 一 致 呢 ? 答案 是 否定 的 。 如 上 所 
述 ， 我 们 已 经 了 解 了 大 数据 时 代 信 息 取舍 的 6 种 有 效 方法 ， 即 数字 化 市 
制 、 保 护 信息 隐私 权 、 建 设 数字 隐私 权 基 础 设施 、 调 整 人 类 的 现 有 认 
知 、 打 造 民 性 的 信息 生态 和 完全 语 境 化 ， 这 6 种 方法 是 当下 社会 各 个 领 
域 、 部 门 进行 信息 取舍 的 主要 方法 ， 是 规避 数字 化 记忆 和 市 来 的 压力 、 有 
效 取舍 信息 的 重要 途径 。 但 是 ， 这 些 信息 取舍 方法 都 是 保存 和 删除 的 二 
元 论 ， 是 以 方法 论 为 前 提 的 信息 取舍 方法 。 这 种 包含 明确 价值 取舍 的 设 
计 计 划 是 以 特定 价值 目标 为 目的 的 非 此 即 彼 的 强制 取舍 ， 不 是 超 数据 的 
信息 取舍 方法 。*S/ 


超 数 据 时 代 与 人 类 记忆 和 遗忘 的 生物 性 进程 相反 ， 与 大 数据 时 代 记 
忆 与 遗 筷 的 数字 化 进程 相同 。 由 于 数字 化 记忆 的 持久 性 、 全 面 性 ， 记 住 
什么 已 经 不 成 问题 ， 反 倒是 怎样 遗志 ， 特 别 是 恢复 记忆 伴随 遗 筷 的 目 然 
过 程 成 为 超 数 据 取 人 铭 的 价值 目标 。 也 就 是 说 ， 传 统 的 信息 处 理 方 式 是 以 
克服 遗 筷 、 强 化 记忆 为 目的 的 信息 处 理 模式 ， 或 是 以 特定 价值 目标 为 目 
的 的 非 此 即 彼 的 强制 取舍 模式 ， 而 超 数 据 时 代 的 信息 处 理 模 式 可 以 总 结 
为 以 恢复 目 然 遗 坪 为 目标 的 记忆 模式 构建 。 正 如 舍 恩 伯 格 所 言 :“ 人 类 
必须 走出 数字 化 记忆 的 阴影 ， 而 我 们 也 有 能力 做 到 ， 那 就 是 恢复 遗 坊 。 
这 并 不 是 在 或 吹 一 个 无 知 的 未 来 ， 而 古 在 承认 一 个 随 看 时 间 推 移 思 维 会 
演变 、 观 扣 会 调整 的 未 来 。 无 论 如 何 ， 面 对 即将 到 来 的 超 数 据 时 代 ， 我 
们 要 确保 自己 依然 记得 遗忘 的 美德 。” 


在 超 数据 时 代 要 想 保 持 记 忆 的 遗 态 维度 ， 凸 显 记忆 的 目 然 遗 瑟 
德 ， 一 方面 要 加 强 对 超 数 据 取 舍 的 本 质 理 解 ， 为 一 方面 要 将 遗 瑟 因子 作 
为 数据 分 析 和 取舍 的 结构 性 要 率 。 从 本 质 层面 理解 超 数 据 的 取舍 ， 超 数 
据 的 取舍 既是 一 个 全 奶 化 的 过 程 ， 也 是 一 个 自然 的 全 奶 化 过 程 。 因 为 超 


数据 分 析 的 特点 是 海量 数据 的 分 析 ， 同 大 数据 时 代 和 小 数据 时 代 相 比 ， 
它 的 突出 特色 就 是 “要 分 析 与 菜 事 物 相关 的 所 有 数据 ， 而 不 是 依靠 分 析 
少量 的 数据 样本 >”， 这 种 数据 分 析 的 特点 可 以 概括 为 “让 数据 发 声 "。“ 让 
数据 发 声 ” 是 超 数据 时 代 典 型 的 时 代 特 征 和 时 代 要 求 ， 其 理论 内 涵 并 非 
是 让 超 数据 单一 化 地 “发 声 ”， 而 是 要 让 超 数据 多 样 化 地 上 自然“ 发声 ”。 这 
既 展 示 了 超 数 据 的 “记忆 出 色 ? 功 能 ， 又 实现 了 其 “出 色 记 忆 ? 本 质 ;， 让 记 
忆 好 成 为 好 记忆 。 因 而 这 种 数据 分 析 的 过 程 可 以 成 为 日 然 的 全 明 化 过 


程 。 


这 样 一 种 理想 型 的 数据 选取 过 程 能 否 实现 呢 ? 如 果 不 能 实现 ， 我 们 
又 如 何 应 对 这 一 理想 型 的 价值 诉求 呢 ? 显然 ， 让 数据 分 析 完 全 按照 人 类 
目 然 记忆 的 方式 选取 是 一 种 理想 退 求 ， 目 前 以 技术 手段 彻底 实现 还 不 具 
备 条 件 。 但 是 在 超 数 据 取 售 过 程 中 ， 可 以 将 其 作为 一 种 设计 计划 的 价值 
目标 ， 作 为 一 种 设计 计划 的 逻辑 前 提 。 在 不 同 的 设计 计划 中 ， 将 体现 不 
同 价值 需求 的 遗 瑟 因子 引入 数据 分 析 ， 以 此 部 分 实现 超 数 据 分 析 的 目 然 
全 奶 化 过 程 。 个 性 化 推荐 中 的 “基于 自然 遗 瑟 的 协同 过 渡 算 法 ”可 以 看 作 
实现 这 种 目 然 全 恩 化 数据 分 析 理 念 的 可 能 形式 之 一 。 


协同 过 小 算法 是 个 性 化 推荐 的 主要 数据 方法 。 目 前 ,个 性 化 推荐 技 
术 主 要 有 基于 内 容 的 推荐 和 协同 过 滤 推 茬 。 基 于 内 容 的 推荐 算法 是 假定 
用 户 的 兴趣 不 变 ， 根 据 用 户 以 往 的 数据 预测 其 可 能 喜欢 的 项 目的 特征 ， 
然后 根据 用 户 数据 特征 与 内 容 特征 的 拟 合 ， 问 用 户 推荐 项 目 。 这 种 推荐 
方式 的 主要 缺点 之 一 就 是 时 效 性 关 ， 推 荐 的 内 容 没有 充分 考虑 用 户 的 当 
下 需求 。 协 同 过 滤 推 荐 则 是 将 信息 综合 的 区 域 扩大 ， 搜 索 目 标 用 户 的 大 
干 近邻 ， 因 为 在 现实 生活 中 ， 对 于 不 了 解 的 问题 或 事物 ， 人 们 往往 会 咨 
询 目 己 的 朋友 或 是 和 目 己 兴趣 相似 的 人 ， 并 根据 他 们 的 判断 做 出 目 己 的 
选择 ， 因 而 可 根据 近邻 对 项 目的 预测 评分 生成 推荐 列表 。 同 时 ， 协 同 过 
渡 算 法 也 会 考虑 客户 的 兴趣 随时 间 而 改变 的 可 能 ， 将 时 间 要 素 引 入 个 性 
化 推荐 分 析 ， 进 而 增强 推荐 的 时 效 性 。 


应 该 说 协同 过 滤 算 法 提供 了 一 个 包含 时 间 维 度 的 数据 分 析 模 式 ， 这 
种 模式 体现 了 数据 减 量化 分 析 的 历史 性 特征 ， 综 合 了 用 户 的 当下 需要 ， 
在 形式 设计 方面 满足 了 包含 遗 扎 的 历史 记忆 的 数据 取舍 要 求 。 有 具体 而 
言 ， 束 是 “将 遗 坪 因子 作为 信息 取舍 的 一 个 结构 性 要 素 纳入 分 析 系 统 ， 
从 而 实现 在 数据 分 析 中 以 自然 遗 态 为 要 件 的 信息 取 合 ”。 


(二 ) 优化 算 力 配置 


算 力 是 热点 减 量 化 中 提高 数据 处 理 效率 的 驱动 力 。 未 来 已 来 ， 无 论 
对 于 个 人 、 企 业 还 是 宏观 经 济 来 说 ， 拥 有 更 强 的 计算 能 力 ， 就 可 以 获得 
更 多 苋 搜 优势 。 换 言 之 ， 计 算是 数字 世界 的 基石 ， 计 算 的 智能 可 以 带 来 
体验 力 、 创 造 力 和 变革 力 。 一 句 话 ， 计 算 就 是 力量 。 热 点 减 量 化 中 计算 
的 优化 配置 为 数据 处 理 插 上 了 对 膀 ， 极 大 地 提高 了 整个 数据 处 理 效 率 ， 
从 而 为 数据 人 处理 市 约 了 时 间 成 本 、 资 金成 本 等 资源 。 


自 1946 年 世界 上 第 一 台电 子 数字 计算 机 ENIAC 问 世 以 来 ， 计 算 机 已 
经 经 历 72 年 的 发 展 。 在 这 短 短 的 70 多 年 时 间 里 ， 计 算 机 技术 实现 了 5 次 
飞跃 。 制 造 计算 机 的 元 器 件 从 最 初 的 电子 管 、 品 体 管 发 展 到 集成 电路 ， 
集成 电路 又 从 中 小 规模 发 展 到 大 规模 、 超 大 规模 。 当 时 ENIAC 的 运算 速 
度 是 每 秒 5 ”000 次 加 法 运算 ， 而 现在 计算 机 的 运算 速度 最 快 可 以 达到 每 
秒 280.6 万 亿 次 浮 点 运算 ， 是 ENIAC 的 56 亿 倍 。 


计算 机 的 发 明 源 于 解决 计算 问题 ， 如 ENIAC 用 于 计算 火炮 弹道 ， 因 
此 命名 为 计算 机 。 但 经 过 72 年 的 发 展 ， 计 算 机 直接 用 于 “计算 ”的 情况 越 
来 越 少 ， 绝 大 多 数 计算 机 用 于 控制 、 管 理 、 通 信 、 文 字 处 理 、 信 息 处 
理 、 图 像 处 理 、 视 频 处 理 等 (虽然 完成 这 些 非 “ 计 算 ” 功 能 仍然 依 徘 计 算 
机 核心 的 计算 功能 ) 。 尽 管 如 此 , “计算 ”始终 是 计算 机 的 重要 应 用 领 
域 。 每 一 发 展 阶段 ， 最 大 、 最 强 的 计算 机 在 技术 上 、 应 用 上 都 是 计算 机 
技术 发 展 的 开拓 者 ， 并 都 被 用 于 解 算 最 大 、 最 难 的 计算 问题 ， 推 动 了 科 


学 技术 及 计算 机 技术 的 创新 发 展 。 


人 类 在 生产 生活 中 要 处 理 与 应 用 的 数据 越 来 越 多 ， 所 需要 的 数据 分 
析 算 法 越 来 越 复 人 茶 ， 加 之 科学 研究 和 某 些 商业 领域 对 高 精确 度 的 要 求 ， 
计算 资源 成 为 人 工 乔 能 技术 发 展 的 瓶颈 。 对 海量 数据 进行 过 滤 饰 选 的 过 
程 ， 关 系 到 工作 效率 以 及 各 种 生产 成 本 的 节约 。 超 数据 时 代 对 人 们 的 数 
据 处 理 能 力 提 出 了 完全 不 同 的 要 求 ， 可 以 说 ， 谁 掌握 了 数据 ， 谁 就 在 一 
定 程度 上 拥有 了 话语 权 。 这 种 对 数据 的 处 理 能 力 ， 实 际 上 就 是 一 种 计算 
能 力 ， 它 将 人 们 日 常 的 行为 或 者 操作 转化 为 一 系列 数据 ， 通 过 系列 计算 
过 程 得 到 相应 的 结果 ， 为 人 们 的 决 集 提供 虚拟 化 但 具有 高 度 可 靠 性 的 依 
据 。 


虽然 计算 机 已 具备 强大 的 性 能 ， 并 且 还 在 不 断 提高 ， 但 是 人 工 智能 
技术 的 迅 狐 发 展 对 计算 效率 提出 了 更 高 的 要 求 ， 现 阶段 计算 机 已 不 能 满 
足 人 类 对 计算 性 能 需求 的 增长 。 在 石油 勘探 、 地 震 预测 预报 、 气 候 模 拟 
及 大 汇 围 天 气 预 报 、 新 型 武器 设计 和 核武 器 系统 的 研究 模拟 、 地 质 研 
究 、 天 体 和 地 球 科学 、 虚 拟 现实 系统 等 诸多 领域 都 需要 大 量 的 计算 文 
撑 。 为 了 满足 超 数 据 时 代 处 理 数据 的 计算 能 力 需 求 ， 人 们 对 高 性 能 计算 
设 定 了 更 高 的 目标 。 


目 第 一 台电 子 数字 计算 机 ENIAC 诞 生 以 来 ， 人 们 就 没有 停止 过 对 高 
性 能 计算 的 追求 ， 高 性 能 计算 是 计算 机 科学 的 一 个 分 文 ， 主 要 是 指 从 体 
系 结构 、 并 行 算 法 和 软件 开发 等 多 方面 研究 开发 高 性 能 计算 机 的 技术 。 
高 性 能 计算 本 号 并 没有 确切 的 定义 ， 它 是 指 通过 一 定 途 径 获 得 比 当前 主 
流 计算 机 更 高 性 能 的 计算 能 力 的 技术 。 高 性 能 计算 已 被 公认 为 继 理论 科 
学 和 实验 科学 之 后 ， 人 类 认识 世界 、 改 造 世界 的 第 三 大 科学 研究 方法 ， 
征 科 技 创新 的 重要 手段 。 在 当前 社会 情况 下 ， 高 性 能 计算 已 经 成 为 国家 
综合 实力 的 体现 ， 对 国家 战略 的 发 展 有 着 重要 影 啊 。 


高 性 能 计算 技术 已 丝 广 泛 应 用 于 航空 航天 、 汽 车 制造 、 核 试验 模 
拟 、 军 事情 报 搜 集 处 理 、 天 气 预报 等 诸多 领域 。 通 过 高 性 能 计算 ， 人 们 


可 以 完成 很 多 现代 计算 机 无 法 完成 的 实验 ， 既 可 以 免除 真实 实验 的 高 额 
费用 ， 又 不 会 对 环境 造成 任何 影响 。 通 常 来 讲 ， 高 性 能 计算 有 两 种 表现 
方式 : 一 是 提升 单机 的 计算 能 力 ;， 二 是 通过 网 络 连接 多 人 台 计 算 机 ， 进 而 
提升 计算 能 力 。 第 一 种 方式 多 是 指 提升 CPU 的 处 理 能 力 ， 而 随 着 CPU 主 
频 的 提高 受制 于 制作 工艺 ，CPU 的 发 展 方向 已 经 由 单 核 向 多 核发 展 。 事 
实证 明 ， 很 多 情况 下 CPU 过 多 的 核心 反而 会 降低 CPU 的 处 理 能 力 。 近 几 
年 出 现 的 GPGPU 〈 通 用 计算 图 形 处 理 器 ) 技术 已 经 成 为 提升 单机 处 理 
能 力 的 主要 技术 。 第 三 种 方式 是 通过 整合 多 台 网 络 计算 机 来 提升 计算 能 
力 ， 因 为 性 价 比较 高 ， 已 经 逐渐 成 为 主流 方式 。 


随 痢 计算 机 和 智能 硬件 的 快速 发 展 、 普 及 应 用 ， 更 多 的 高 性 能 计算 
技术 也 得 到 了 快速 的 研究 和 发 展 ， 尤 其 是 基于 计算 机 技术 而 实现 的 、 人 
类 在 处 理 数据 方面 的 云 计算 等 新 一 代 高 性 能 计算 技术 ， 极 大 提高 人 类 收 
集 、 分 析 和 处 理 数 据 的 能 力 ， 促 进入 工 乔 能 的 应 用 与 普及 。 所 谓 云 计 
算 ， 是 基于 互联 网 技术 的 一 项 虚拟 运算 技术 ， 它 是 利用 互联 网 相关 服务 
的 拓展 和 增加 来 实现 虚拟 资源 的 获取 ， 例 如 模拟 跳 爹 、 爆 破 现 场 、 诡 车 
等 。 云 计算 具有 非常 突出 的 计算 能 力 ， 通 常 都 是 超大 规模 ， 例 如 谷歌 云 
计算 已 经 拥有 100 多 万 台 计 算 机 。 使 用 云 计 算 的 费用 低廉 ， 用 户 可 以 以 
极 低 的 价格 获得 优质 的 服务 和 极其 强大 的 计算 体验 。 利 用 云 计 算 获 得 的 
资源 具有 虚拟 性 ， 而 不 是 以 实物 的 方式 来 体现 ， 其 运算 结果 可 以 按照 用 
户 的 需求 任意 定制 ， 因 而 可 以 充分 满足 不 同 用 户 的 不 同 需求 。 


云 计算 利用 了 多 台 计 算 机 的 实时 互联 、 互 通 保 证 运算 结果 的 高 可 靠 
性 ， 海 量 数据 的 处 理 能 力 要 远 远 超出 单 台 计 算 机 。 云 计算 的 应 用 也 实现 
了 海量 化 与 高 度 知 能 化 ， 不 仅 可 以 实现 多 个 应 用 同时 运行 而 不 降低 运行 
速度 ， 在 云 数 据 的 文 撑 下 还 可 以 根据 用 户 的 不 同 需求 衍生 出 不 同 的 应 用 
类 型 。 多 台 云 计算 机 随时 随地 保持 收集 数据 、 处 理 数据 、 分 析 数 据 的 能 
力 ， 能 够 不 断 满足 数据 规模 与 用 户 群 规模 的 扩大 。 


(三 ) 选择 最 优 算法 


算法 是 热点 减 量化 中 更 好 地 过 滤 筛选 海量 数据 的 重要 保障 。 在 数据 
处 理 过程 中 ， 算 法 对 于 数据 处 理 具有 决定 性 的 作用 ， 通 常 算法 的 选择 直 
接 影响 数据 处 理 效 果 。 同 样 ， 在 热点 减 量 化 环节 ， 算 法 对 海量 数据 的 取 
舍 意 义 不 言 而 喻 。 如 果 没 有 算法 的 话 ， 我 们 将 不 能 更 好 地 达到 数据 过 滤 
筛选 的 目的 。 由 此 可 见 ， 算 法 是 热点 减 量化 中 更 好 地 对 海量 数据 进行 过 
滤 筛 选 的 重要 支撑 。 关 于 算法 这 一 古老 的 概念 ， 萌 生 于 四 五 千年 以 前 。 
已 知 最 早 的 算法 写 在 考古 学 家 发 掘 出 的 古巴 比 伦 泥 版 上 ， 这 些 泥 版 的 年 
代 是 公元 前 3000 一 公元 前 1500 年 。 


什么 叫 算法 ?根据 美国 著名 计算 机 专家 元 努 特 的 定义 ， 算 法 就 是 一 
个 有 穷 规 则 的 集合 ， 其 中 规则 规定 了 一 个 解决 芭 一 特定 类 型 问题 的 运算 
序列 。 根 据 这 个 定义 ， 把 算法 理解 为 耕 干 基本 操作 及 其 规则 作为 元 素 的 
集合 ， 即 一 个 算法 就 是 由 寿 干 基本 操作 按 一 定 顺序 规则 进行 操作 的 序 
列 ， 这 是 对 算法 的 广义 理解 。 在 广义 的 定义 下 ， 生 活 中 充斥 独 许 多 性 质 
完全 不 同 的 算法 。 例 如 ， 报 纸 排版 编辑 、 喜 调 、 下 棋 、 解 数学 题 .…… 实 
际 上 任何 有 目的 的 、 有 计划 的 行动 都 可 归结 为 东 种 算法 ， 尽 管 有 时 候 人 
们 并 不 明确 这 一 点 。 人 和 仔细 分 析 束 会 发 现 ， 一 个 有 目的 、 有 计划 的 行动 忌 
可 以 被 分 解 为 多 步 又 的 基本 操作 和 规则 。 就 像 责 调 中 烧 熟 这 一 坏 市 ， 可 
分 成 子 、 炒 、 炸 、 煮 、 蒸 、 烤 等 不 同 的 基本 操作 ， 并 且 可 以 交叉 使 用 ， 
不 同 的 操作 顺序 可 以 做 出 不 同 的 染 看 。 这 个 例子 十 分 清楚 地 说 明了 一 个 
相当 复杂 的 过 程 ， 都 可 以 通过 “逐步 分 解 ” 的 方式 ， 一 步 一 步 地 分 解 为 基 
本 的 操作 和 规则 。 


我 们 正 生活 在 一 个 算法 时 代 。 一 两 代 人 以 前 ， 提 到 “算法 ”这 个 词 ， 
可 能 多 数 人 脑 中 会 一 片 空白。 如 今 ， 文 明 社 会 的 每 个 角落 都 存在 算法 ， 
日 常生 活 的 每 分 每 秒 也 都 和 算法 有 关 。 算 法 不 仅 存在 于 你 的 手机 或 笔记 
本 电脑 ， 还 存在 于 你 的 汽车 、 房 子 、 家 电 以 及 玩具 中 。 例 如 银行 系统 就 
征 由 各 种 算法 交织 而 存在 的 庞大 集合 体 ， 算 法 能 安排 航班 ， 也 能 驾驶 飞 


机 。 算 法 能 经 营 工 三、 进行 交易 、 运 输 货 物 、 处 理 现金 收益 ， 还 能 保存 
记录 。 如 果 所 有 算法 都 突然 停止 运转 ， 那 么 就 是 现代 社会 的 末日 。 


机 器 通过 学 习 能 够 达到 混淆 人 类 的 程度 ， 其 核心 技术 在 于 算法 。 
2015 年 10 月 5 一 9 日 ， 美 国人 硅谷 公 司 旗下 的 人 工 乔 能 开发 商 深 思 研 发 的 围 
棋 电 脑 软 件 阿 尔 法 狗 打 败 了 职业 棋 手 一 一 欧洲 围棋 冠军 攀 庭 ， 开 创 全 球 
先河 。 在 2016 年 3 月 举行 的 世界 围棋 冠军 李 世 石 与 阿尔 法 狗 的 比赛 中 ， 
李 世 石 以 1 : 4 败北 。 紧 接着 的 2017 年 的 人 机 大 战 中 ， 阿 尔 法 狗 再 次 完胜 
世界 排名 第 一 的 柯 洁 。 据 专业 人 士 分 析 ， 在 以 往 采 用 的 蒙特 卡 洛 树 搜 索 
算法 之 外 ， 阿 尔 法 狗 新 加 入 “价值 网 络 * 和 “策略 网 络 * 两 种 深度 神经 网 络 
算法 ， 分 别 减少 了 搜索 所 需 的 广度 和 深度 。 


算法 是 一 系列 指令 ， 它 能 告诉 计算 机 该 做 什么 ， 计 算 机 是 由 几 十 亿 
微小 开关 〔 称 为 晶体 管 ) 组 成 的 ， 算 法 能 在 1 秒 内 打开 并 关闭 这 些 开关 
几 十 亿 次 。 最 简单 的 算法 是 触动 开关 。 一 个 晶体 管 的 状态 就 是 一 个 比特 
信息 : 如 果 开 关 打 开 ， 信 息 吏 是 1; 如 果 开 关头 闭 ， 信 息 就 是 0。 银 行 的 
计算 机 的 茶 个 比特 信息 会 显示 账户 是 否 已 透 文 ， 美国 社会 保障 总 罩 的 计 
算 机 的 茶 个 比特 信息 表明 你 是 活着 还 是 已 死亡 。 第 二 简单 的 算法 是 把 两 
个 比特 结合 起 来 。“ 信 息 论 之 父 ? 死 区 德 : 香 农 第 一 个 意识 到 晶体 管 的 活 
动 就 是 在 运算 ， 因 为 晶体 管 开 了 义 关 ， 是 对 其 他 品 体 窟 的 回应 : 如 果 蝇 
体 管 A 只 有 在 品 体 管 B 和 C 都 打开 时 打开 ， 那 么 这 时 它 就 是 在 做 小 型 的 过 
辑 运算 ， 如 果 晶 体 管 A 在 晶体 管 B 和 C 其 中 一 个 打开 时 才 打 开 ， 就 是 另外 
一 种 小 型 逻辑 和 运算， 如 果品 体 管 A 在 品 体 管 B 关 闭 的 时 候 打 开 ， 这 又 是 
第 三 种 运算 。 


算法 是 一 套 严 格 的 标准 。 人 们 第 说 ， 你 没 法 真正 了 解 菜 样 东 西 ， 直 
到 你 能 用 一 种 算法 将 其 表达 出 来 。 方 程式 对 物理 学 家 和 工程 师 来 说 就 是 
谋生 工具 ， 而 这 也 仅仅 是 一 种 特殊 算法 。 例 如 牛顿 第 二 定律 ， 可 以 说 是 
有 上 史 以 来 最 重要 的 等 式 之 一 ， 用 物体 的 质量 乘 以 其 加 速度 ， 可 以 算出 作 
用 在 物体 上 的 力 。 该 定律 还 说 明了 加 速度 等 于 作用 力 除 以 质量 ， 要 弄 明 


这 一 点 ， 只 需 一 个 运算 步骤 。 在 科学 的 任何 领域 ， 如 果 某 个 理论 无 法 用 
算法 表示 ， 那 么 它 就 不 是 很 严谨 。 


算法 中 的 蚁 群 算法 是 一 种 模拟 目 然 界 的 生物 特性 而 形成 的 并 行 算 
法 ， 上 有 具有 自 组 织 性 和 较 强 的 鲁 棒 性 三。 从 现实 世界 中 曲 蚁 疯 食 的 过 程 可 
以 看 出 ， 蚂 蚁 能 够 找到 从 蚁 穴 到 食物 源 的 最 短路 径 ， 这 一 点 与 该 路 径 上 
的 信息 系 积 累 密 不 可 分 ， 信 息 素 积累 的 过 程 就 是 一 个 正 反 馈 的 过 程 。 随 
着 蚁 群 算法 的 发 展 和 完善 ， 人 们 已 经 将 它 应 用 于 求解 许多 领域 中 的 难 
题 ， 并 取得 了 蛙 越 的 成 果 。 实 践 证 明 ， 蚁 群 算法 是 处 理 多 目标 问题 的 一 
种 有 效 的 寻 优 方法 ， 具 有 求解 多 目标 问题 的 优点 。 


蚁 群 算法 通过 模拟 自然 界 的 蚂蚁 疯 食 过 程 对 目标 进行 搜索 ， 在 搜索 
过 程 中 人 工 蚂 蚁 会 在 其 经 过 的 路 径 上 释放 信息 素 ， 在 此 之 后 的 蚂蚁 会 根 
据 路 符 上 的 信息 系 浓 度 选 择 行进 路 径 。 信 息 素 浓度 越 蜗 ， 则 该 路 径 被 选 
择 的 概率 越 大 。 蚁 群 算法 实现 的 TSP (旅行 商 问 题 》 过 程 可 以 描述 为 : 
将 m 只 蚂蚁 放 入 n 个 随机 选择 的 城市 中 ， 那 么 每 只 蚂蚁 每 步 的 行动 是 根 
据 一 定 的 依据 选择 下 一 个 它 还 没有 访问 的 城市 ， 同 时 在 完成 一 步 〈 从 一 
个 城市 到 达 男 一 个 城市 ) 或 者 一 个 循环 完成 对 所 有 n 个 城市 的 访问 ) 
后 ， 更 新 所 有 路 径 上 的 信息 素 浓度 。 
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4. 鲁 棒 性 ， 指 系统 的 健壮 性 和 抗 变性 ， 是 在 异常 和 和 危险 情况 下 系统 生存 的 关键 。 控 制 
系统 在 一 定 的 参数 摄 动 下 ， 维 持 其 他 性 能 的 特性 。 一 -一 编者 注 
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群体 入 能， 吞 能 磁 撞 


人 工 智能 技术 的 空前 发 展 正 深刻 地 改变 人 机 之 间 的 关系 和 互动 模 
式 。 由 于 人 类 生活 中 存在 着 高 度 的 不 确定 性 和 脆弱 性 ， 以 及 人 类 所 面临 
问题 的 开放 性 ， 无 论 机 吉 多 么 智能 ， 人 类 多 么 智慧 ， 都 不 能 单独 凭 一方 
解决 这 些 问题 。 因 此 ， 需 要 以 平等 的 视野 去 挖掘 人 机 双方 的 最 大 潜能 ， 
将 研究 的 重心 从 人 机 之 间 的 博弈 转移 到 人 类 和 机 器 之 间 的 合作 ， 打 破 人 
类 传统 获取 知识 信息 的 能 力 局 限 和 机 器 的 智能 盲区 ， 形 成 平衡 理智 和 情 
感 后 一 种 群体 最 佳 决 集 。 


激活 数据 学 中 的 智能 碰撞 是 把 传统 强调 的 专家 智能 模拟 转移 到 群体 
智能 ， 智 能 体 的 构造 从 多 辑 和 单调 走 癌 开放 和 涌现 。 想 法 在 群体 之 间 有 


A 

[智能 体 组 成 新 型 的 智慧 群体 的 过 程 中 ， 智 能 碰撞 能 够 让 人 类 和 人 工 
EE 相互 学 习 ， 充 分 发 挥 各 自 优 势 ， 使 得 人 机 之 间 和 劣势 互 补 、 优 势 增 
强 ， 借 助 互联 网 平台 ， 能 够 高 效 重 组 群体 ， 形 成 更 广泛 、 更 精准 的 群体 


口 台 马 
智能 。 


头脑 风 骏 : 用 现 好 想法 和 做 出 好 诀 脓 


(一 ) 创造 力 是 发 现 好 想法 的 源 果 


头脑 风暴 最 初 由 现代 创造 学 黄 基 人 奥 斯 本 于 1941 年 提出 ， 旨 在 改变 
传统 会 议 机 制 制约 新 观点 产生 的 现状 ， 通 过 聚集 不 同 背景 的 成 员 ， 鼓 励 
成 员 自 由 发 表 观 点 ， 并 在 提出 的 观点 之 上 建立 新 观点 ， 想 法 经 过 层 层 迭 
代 、 碰 撞 ， 最 终 找到 特定 问题 解决 方案 的 会 议 技巧 。 至 于 能 否 完美 地 解 
决 问题 ， 其 关键 在 于 讨论 过 程 和 不 同 观点 的 融合 程度 ， 也 就 是 小 组 创造 
力 。 创 造 性 高 的 小 组 经 常 得 到 意 想 不 到 的 成 果 ， 而 创造 性 低 的 小 组 却 很 
少 得 到 建设 性 的 成 果 。 成 员 自 身 的 创造 力 和 知识 异 质 性 都 有 可 能 影响 小 
组 的 创造 力 : 一 方面 ， 小 组 由 个 体 组 成 ， 个 体 的 创造 力 必然 会 影响 小 组 
的 创造 力 ; 另 一 方面 ， 创 造 性 活动 需要 洞察 各 种 各 样 的 情况 ， 成 员 拥 有 
的 异 质 性 想法 、 观 点 和 特长 是 小 组 创造 力 的 重要 来 源 。 


个 体 创 造 力 的 好 坏 取决 于 经 验 融 合 的 高 低 。 创 造 力 是 指 人 类 的 智 意 
在 抽象 思维 、 推 理 、 创 造 新 知识 、 形 成 联想 等 方面 的 撤 巧 。 具 有 创造 力 
的 个 体 首 先 要 有 随机 应 变 的 能 力 ， 能 举一反三 ， 不 受 固 定 模 式 和 常规 等 


力 ， 能 够 在 较 短 时 间 内 表达 出 较 多 的 想法 。 最 后 要 有 独特 性 ， 对 负 规 事 
物 具 有 不 寻 御 的 独特 见解 ， 对 个 体 上 自身 已 经 擎 握 的 原理 、 定 理 、 方 法 总 
结 经 验 ， 解 决 问题 的 时 候 有 方向 、 有 范围 、 有 程序 。 


史 送 夫 : 弄 布 斯 次 : 创造 力 只 不 过 是 把 事物 关联 在 一 起 而 已 。19 世 
纪 70 年 代 ， 妇 产科 医生 斯 带 苍 : 塔 尼 在 动物 园 散 步 ， 侦 然 友 现 一 些小 鸡 


孵化 器 ， 看 到 刚刚 旷 出 来 的 小 鸡 在 孵化 右 逮 暖 等 适 的 空间 中 中 踊 跳 跳 ， 
一 个 创意 突然 出 现在 他 的 脑海 之 中 ， 那 就 是 制造 类 似 小 鸡 孵 化 硕 的 设 
备 ， 为 刚 出 生 的 婴儿 提供 相似 的 保护 。 当 时 新 生 儿 死亡 率 非 党 高 ， 在 体 
重 过 轻 的 新 生 儿 中 ，66% 在 出 生 几 周 后 就 不 鞋 天 折 ， 使 用 保温 箱 ， 死 亡 
率 则 降低 至 38%。 人 们 总 是 把 创新 看 成 一 个 个 超越 环境 限制 的 过 程 ， 但 
实际 上 ， 创 新 更 像 是 一 个 个 想法 的 拼接 物 ， 是 由 思想 的 入 片 拼接 而 成 。 


社会 化 学 习 是 提高 创造 力 的 重要 方式 。 人 类 是 群居 动物 ， 在 合作 与 
互动 的 过 程 中 ， 不 停 地 辐 各 式 各 样 的 人 征求 对 目 身 想法 的 意见 ， 总 结 、 
学 习 、 融 合 自身 经 验 ， 形 成 最 好 的 想法 来 指导 行动 和 决策 。 在 互动 和 交 
流 的 过 程 中 ， 不 是 只 有 好 的 想法 才 会 对 个 体 产 生 影 响 ， 特 异 的 想法 和 观 
点 对 个 体 的 刺激 更 大 。 只 有 不 断 地 进行 社会 化 学 习 才 能 使 个 体 产 生 足 够 
多 样 的 想法 。 所 谓 社会 化 学 习 是 在 日 常生 活 中 通过 观察 他 人 行为 学 习 新 
打上 略 以 及 通过 体验 学 习 新 知识 的 过 程 。 模 仿 他 人 的 成 功 经 验 ， 要 比 个 体 
独 目 学 习 高 效 得 多 。 生 物 学 家 在 研究 野外 群居 动物 时 发 现 ， 模 仿 成 功 个 
体 可 以 提 咒 六 食 、 择 侦 和 栖 姑 地 选择 等 决定 的 准确 性 。 有 关 学 习 的 数学 
模型 表明 ， 在 复 哥 环境 中 ， 最 佳 的 学 习 朱 上 略 是 花费 90% 的 精力 来 寻找 并 
效仿 那些 做 得 好 的 人 ， 剩 下 109% 的 精力 应 该 花 在 个 体 实 验 和 透彻 思考 
= 


社会 化 学 习 对 象 的 多 样 性 决定 了 想法 的 好 坏 程 度 。 当 每 个 学 习 对 象 
都 选择 相同 的 方 铝 时 ， 信 息 和 想法 来 源 极 有 可 能 不 够 多 样 化 ， 极 有 可 能 
会 导致 团体 决策 不 仅 没 有 发 挥 出 所 有 成 员 知识 和 智慧 的 总 和 ， 反 而 犯 下 
比 个 人 决策 更 严重 的 错误 ， 因 为 这 时 的 成 员 会 误 以 为 自己 的 错误 想法 有 
据 可 循 ， 以 至 产生 错误 的 共识 ， 这 时 该 做 的 是 进一步 探索 。 群 体 知识 的 
多 样 性 会 带 来 知识 合 加 和 化 学 反应 ， 产 生意 想不到 的 好 决策 和 好 想法 。 


在 头脑 风 骏 的 过 程 中 ， 个 体 想 法 的 传播 与 流感 的 传播 有 相似 之 处 。 
在 流感 病毒 传播 的 过 程 中 ， 当 一 个 感染 者 和 “新 人 ”接触 时 ， 新 人 会 存在 
一 定 的 被 感染 病毒 的 风险 。 如 果 两 人 之 间接 触 过 多 并 且 “ 新 人 ”是 易 感 染 


者 的 话 ， 他 就 很 可 能 得 流感 。 如 果 大 部 分 人 都 是 易 感 者 ， 那 么 病毒 将 以 
指数 级 增长 的 传播 速度 扩散 到 大 部 分 人 之 中 。 想 法 的 流动 也 与 其 类 似 。 
如 果 在 具有 茶 种 行为 的 个 体 和 一 个 “新 人 ”之 间 有 很 多 互动 ， 并 且 “ 新 
人 ”是 易 感 者 ， 那 么 这 一 新 想法 就 有 可 能 生根 有 发芽， 进而 改变 “新 人 ”的 
行为 。 


(二 ) 群体 合作 与 互动 


在 社会 活动 中 ， 人 类 通过 学 习 、 说 话 、 思 考 与 环境 互动 来 执行 行 
动 ， 通 过 大 量 的 参与 合作 ， 发 现 、 选 择 和 学 习 新 的 策略 并 协调 行动 以 适 
应 周围 的 环境 变化 。 合 作 和 动态 优化 的 质量 表明 人 类 和 群体 智能 比 任何 个 
人 智慧 都 好 得 多 。 人 类 的 智 翘 是 创造 性 的 、 复 杂 的 、 动 态 的 。 人 类 知 力 
的 复杂 性 意味 着 人 脑 内 部 神经 系统 的 结构 复杂 性 和 结缔 组 织 可 塑性 ， 以 
及 一 系列 和 直觉、 意识 和 思维 机 制 所 固有 的 复杂 性 。 目 前 虽然 关于 人 类 智 
力 的 机 制 没 有 共同 的 结论 ， 但 正 是 由 于 人 脑 的 复杂 结构 ， 人 类 的 智力 才 
能 更 好 地 专门 处 理 完整 的 非 结 构 化 信息 。 人 类 知识 进化 和 学 习 能 力 的 动 
态 性 使 得 人 类 更 善于 学 习 、 推 理 、 协 作 和 进行 其 他 高 级 智能 活动 。 


在 社会 化 学 习 的 互动 中 产生 的 共识 与 异 见 是 扩大 和 产生 价值 的 关 
键 。 所 谓 共识 ， 就 是 个 体 被 条 一 信号 激活 时 ， 同 被 这 信号 激活 的 其 他 个 
体 产 生 相 似 的 信息 扩散 而 引起 的 共鸣 ， 也 就 是 说 ， 当 一 个 个 体 科 激活 
时 ， 同 类 随 之 都 被 激活 ， 从 而 共同 处 于 工作 状态 。 张 光 鉴 在 《相似 论 》 
中 指出 , “如 果 在 问题 求解 时 ， 茶 个 偶然 的 机 会 ， 相 似 块 与 问题 求解 的 
言 恩 度 达到 局 度 的 相似 结合 与 相似 匹配 ， 产 生 了 某 种 共振 态 ， 信 息 的 幅 
度 就 会 大 大 增加 ”。 个 体 想 法 在 互动 中 不 是 静止 的 ， 而 是 处 于 一 种 动态 
的 过 程 中 ， 它 一 方面 与 自身 经 验 和 社会 化 学 习 有 关 ， 另 一 方面 又 与 其 他 
个 体 相 互 作 用 、 相 互联 系 ， 类 似 苏 霍 姆 林 斯 基 说 的 “知识 的 周转 >， 促 使 
知识 周转 的 “动力 ?网 是 在 认 知 过 程 中 大 脑 会 自沉 地 或 下 意识 地 按照 相似 
性 原理 去 工作 ， 这 个 工作 过 程 束 是 外 界 信息 进入 大 脑 后 同 已 经 存储 在 大 


脑 中 的 信息 进行 耦合 、 接 通 和 激活 。 因 此 ， 一 个 个 体 智能 拥有 的 经 验 越 
丰富 ， 那 么 相似 信息 就 越 容 易 进 入 共振 状态 ， 从 而 其 价值 也 就 会 表现 得 
越 大 。 


在 互动 过 程 中 的 奇特 想法 往往 能 产生 好 的 决策 。 创 新 的 本 质 是 解决 
问题 的 好 想法 。 什 么 是 创新 ?积极 心理 学 已 经 清楚 地 发 现 ， 创 新 并 不 是 
单纯 的 “ 求 新 ”。 真 正 的 创新 是 “新 闲 和 有 用 ”的 结合 ， 两 者 结合 越 紧 和 饮 ， 
创新 越 早 越 。 在 群体 决策 中 ， 个 体 可 能 拥有 独立 的 信息 ， 并 有 足够 的 知 
识 体系 文 撑 这 些 人 信息， 充分 信任 这 一 信息 足以 抗拒 社会 影响 效应 ， 他 们 
的 独立 策略 可 能 比 群 体 的 共识 策略 要 好 得 多 。 怎 么 样 辨 别 这 些 好 的 怪 想 
法 呢 ? 只 要 找到 很 多 有 这 样 独 立 特 性 的 个 体 ， 如 果 发 现 这 个 策略 能 够 得 
到 他 们 中 大 部 分 人 的 共识 ， 那 么 一 个 好 的 策略 就 会 跟随 这 些 独 立 特性 个 
体 的 共识 而 产生 。 


虽然 群体 镶 能 可 以 体现 出 优 于 个 体 之 和 的 智 意 ， 但 是 从 古 至 今 ， 群 
体 往往 伴随 着 群体 迷 思 现象 。 所 谓 的 群体 迷 思 是 人 们 在 团队 决 集 过 程 
中 ， 主 观 为 了 维护 团体 的 和 谐 与 凝聚 力 ， 而 忽略 了 事实 的 真相 ， 最 终 导 
致 决策 的 失误 。 美 国 心理 学 家 欧文 : 售 尼 斯 通过 对 珍珠 港 事件 、 朝 鲜 战 
搜 、 越 南 战 争 、 水 门 事件 等 美国 政府 历年 外 交 决 集 事 件 ， 参 考分 析 各 个 
事件 的 环境 、 决 集 过 程 、 决 策 结果 ， 友 现 了 造成 团体 迷 思 的 因素 ， 如 群 
体高 度 凝聚 力 、 群 体 隔 绝 外 界 资 讯 与 分 机 、 和 群体 成 员 背 景 和 价值 观 的 相 
似 性 等 。 为 了 避免 群体 迷 思 的 出 现 ， 往 往 需要 群体 成 员 懂 得 群体 思维 ， 
善于 社会 化 学 习 ， 总 络 经 验 ， 并 能 公平 公正 地 表达 想法 。 


(三 ) 群体 决 琐 与 判断 


随 着 万 物 互联 互 明 ， 想 法 随 着 光纤 和 空气 在 社会 网 络 中 流动 ， 这 种 
想法 的 流动 促进 了 思想 在 不 同 个 体 、 不 同时 间 、 不 同 空 间 传递 。 融 入 适 
当 的 想法 流 中 能 够 避免 个 体 试验 的 风险 ， 不 必 进 行 复杂 的 实验 残 能 获得 


大 量 的 行为 经 验 指导 。 和 恰当 的 想法 流动 能 够 让 群体 中 的 全 体 成 员 做 出 比 
个 体 独 立 决 集 更 好 的 决策 。 由 于 拥有 共同 的 习惯 和 经 验 ， 群 体 束 形成 了 
比 个 体 智能 更 强大 的 组 织 智 芒 ， 这 种 智 臣 在 个 体 互动 、 相 互 学 习 以 及 分 
享 彼此 想法 的 过 程 中 产生 。 


想法 的 流通 依赖 社会 化 学 习 ， 通 过 与 他 人 的 示范 性 行为 接触 预测 我 
们 目 身 的 行为 。 人 类 同 其 他 灵 长 类 动物 一 样 ， 太 过 于 依赖 从 周围 的 想法 
中 学 习 的 能 力 ， 这 种 学 习 可 能 会 造成 团体 迷失 而 丧失 群体 智能 。 人 关 文 
明 不 断 演进 而 猿 类 文明 停滞 不 前 的 原因 或 许 在 于 ， 人 类 偶尔 会 选择 与 周 
图 处 于 主导 地 位 的 想法 背道而驰 。 当 我 们 选择 其 他 群体 时 ， 也 就 汲取 了 
新 的 习惯 和 观点 。 在 一 些 情况 下 ， 他 们 能 够 帮助 我 们 做 出 更 好 的 决 集 。 


个 体 想法 汇聚 成 群体 共识 ， 得 到 优 于 个 体 判 断 的 平均 化 的 群体 智 
能 。 和 詹姆斯 . 索 罗 维基 的 《群体 的 智能 》 率 先 提 出 了 “组 织 智 慧 ” 的 概 
念 ， 智 意 组 织 具 有 以 下 特点 。 第 一 ， 多 样 化 的 观点 。 每 个 人 都 有 自己 独 
芯 的 见解 ， 哪 但 有 些 见 解 看 似 殉 诞 。 多 样 化 的 见解 可 以 相互 抵消 彼此 判 
断 中 的 请 误 ， 增 加 群体 智能 判断 的 正确 性 。 第 二 ， 独 立 性 。 人 们 对 事物 
的 判断 不 仅仅 依赖 于 周围 人 的 观点 。 众 人 的 独立 见解 是 群体 智能 胜 过 个 
体 智 意 的 重要 因素 ， 因 为 独立 性 能 使 一 群 人 的 错误 不 会 发 生 关 联 ， 不 会 
影响 到 和 群体 的 判断 ， 使 独立 的 个 体 可 以 获得 更 多 的 新 信息 。 索 罗 维 基 以 
蚂蚁 群体 的 “循环 魔 ? 为 例 ， 说 明 当 一 群 蚂蚁 围 成 一 个 圆圈 绕 行 时 ， 每 一 
只 蚂蚁 都 只 跟着 前 面 的 昌 蚁 走 ， 没 有 试图 寻找 新 路 ， 最 后 全 体 蚂 蚁 一 直 
反复 沿 着 圆圈 走 到 累 死 。 第 三 ， 分 散 与 分 权 化 。 人 们 可 以 充分 发 挥 个 体 
的 差异 性 ， 从 而 为 群体 智能 贡献 更 具 个 性 化 和 本 地 化 的 智 甘 。 例 如 ， 开 
源 软 件 就 是 分 散 化 的 典型 案例 ， 每 一 个 人 都 可 以 为 开源 软件 的 设计 、 开 
发 和 运用 贡献 自己 的 智 营 与 力量 ， 操 作 系统 Linux 对 比 微软 的 Windows 
就 是 众所周知 的 范例 。 但 是 ， 分 散 与 分 权 顷 有 能 够 聚集 众人 智慧 的 渠道 
和 机 制 ， 才 能 够 真正 实现 群体 的 智慧 。 第 四 ， 集 中 化 。 一 种 能 够 集中 个 
体 判断 在 一 起 ， 形 成 群体 决策 智 意 的 机 制 。 对 于 群体 而 言 ， 这 种 集中 个 
体 智 站 的 机 制 往 往 是 共同 的 经 验 、 习 俗 、 文 化 、 洪 移 默 化 的 规则 等 。 生 


活 中 对 地 震 灾 害 的 抵御 、 股 市 涨 落 、 通 货 脱 胀 、 流 行 与 时 尚 、 谷 歌 按照 
网 页 链接 次 数 进行 排序 的 算法 等 ， 都 是 组 织 智 意 的 例子 。 


群体 是 人 类 应 对 自然 和 社会 挑战 ， 推 动 社会 发 展 和 进步 的 选择 。 在 
面 对 复 杂 性 问题 时 ， 和 群体 智能 做 出 的 抉择 往往 是 解决 问题 的 最 佳 方案 。 
1907 年 弗朗西斯 :高 尔 顿 首次 试验 证 明 : 群体 在 茶 些 情况 下 可 产生 超越 
专家 的 智 芒 。2004 年 ， 索 罗斯 基 : 镶 姆 斯 在 《群体 智能 ;如何 做 出 联 明 
的 决策 》 一 书 中 指出 :“ 在 适当 的 环境 下 ， 团 体 在 智力 上 的 表现 非常 突 
出 ， 而 且 通 常 比 团 体 中 最 聪明 的 人 还 聪明 。*” 在 群体 乔 能 中 有 不 同 的 侧 
重点 ， 有 的 是 解决 问题 的 优越 性 ， 有 的 是 获取 信息 的 能 力 ， 有 的 是 解决 
问题 的 高 效 性 和 稳定 性 ， 其 中 最 基本 的 是 优 于 个 体 或 个 体 总 和 的 乔 意 和 
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开放 式 群 体 在 面 对 问 题 时 更 容易 做 出 好 的 决策 。 在 封 闲 式 的 群体 聚 
集中 ， 成 员 在 不 和 谐 的 音调 出 现时 会 表现 出 排 异 的 现象 ， 表 面 上 看 来 是 
群体 成 员 受 到 威胁 时 ， 会 努力 维护 群体 利益 而 展现 出 积极 群体 感 ， 这 种 
高 凝聚 力 的 群体 往往 呈现 出 隔离 状态 ， 缺 乏 对 新 兴 事 物 的 兴趣 ， 对 于 找 
出 一 个 更 好 的 解决 方法 感到 压力 而 选择 盲目 服从 领导 ， 失 去 竞争 力 。 开 
放 性 的 群体 在 社会 化 活动 中 ， 通 过 社会 化 学 习 和 个 体 学 习 产 生 多 样 化 想 
法 ， 这 些 想法 在 群体 做 决策 的 过 程 中 起 到 不 可 或 缺 的 作用 。 


群体 之 中 存在 智慧 ， 但 并 非 在 任何 时 候 都 能 够 产生 高 超 的 群体 智 
能 。 当 前 ， 和 群体 中 个 体 的 参与 性 、 个 体 特征 的 多 样 性 与 独立 性 、 和 群体 规 
模 、 群 体内 部 派系 之 争 的 大 小 ， 以 及 是 否 有 适宜 的 观点 处 理 机 制 ， 痢 被 
认为 是 群体 智能 的 主要 影响 因 系 ， 群 体 智能 的 实现 过 程 是 一 群 有 着 人 不同 
动机 和 不 同 目标 的 个 体 集体 创作 的 过 程 。 这 是 一 个 好 的 现象 ， 群 体 的 多 
样 性 将 在 很 大 程度 上 保证 观点 的 独立 ， 增 加 创意 的 数量 ， 丰 富 创 意 的 类 
型 。 实 验证 明 ， 和 群体 的 观点 最 初 是 很 明智 的 ， 但 在 他 们 受到 来 自 群 体 中 
其 他 人 或 是 周边 个 体 的 影响 后 ， 极 易 出 现 “ 群 体 迷 思 ?> 和 “群体 极 化 ”等 问 
题 。 和 群体 迷 思 是 指 ， 为 了 维护 群体 的 和 谐 ， 群 体 中 的 成 员 常 会 忽略 目 己 


最 初 的 决策 ， 选 择 计 从 和 附和 ， 由 此 形成 群体 观点 的 一 致 或 雷同 ， 必 定 
会 降低 群体 智能 的 质量 。 和 群体 极 化 是 比 群体 迷 思 和 更 为 严重 的 认 知 侦 兰 ， 
这 种 现象 在 网 络 环境 下 基于 趣 缘 组 成 的 群体 中 更 易 产 生 ， 和 群体 极 化 是 一 
种 不 理性 的 决策 ， 它 会 引领 看 群体 背离 最 佳 的 决 案 ， 癌 着 更 加 保守 或 激 
进 ， 更 为 冒险 的 方 癌 仿 移 。 针 对 这 些 问 题 ， 索 罗斯 基 主 张 以 目 组 织 的 分 
权 化 管理 来 保证 群体 智能 的 质量 。 


群体 规模 与 群体 智能 呈正 相关 关系 。 社 会 学 家 觉得 当前 的 群体 智能 
大 体 分 为 两 种 : 无 意识 的 和 有 意识 的 。 社 会 网 络 和 媒体 网 站 中 留 下 的 用 
户 观点 、 购 买 记录 、 评 级 和 议论 ， 以 及 由 此 建立 起 来 的 网 络 人 际 关 系 ， 
都 属于 无 意识 的 群体 智能 ， 而 有 意识 开展 和 形成 的 群体 规模 ， 则 是 有 意 
识 的 群体 智能 ， 两 种 群体 乔 能 都 可 以 解决 问题 ， 但 无 意识 的 群体 智能 水 
平 则 相对 较 低 。 因 此 ， 为 保证 群体 智能 的 实施 效果 ， 需 要 根据 决策 对 象 
选择 形成 与 之 匹配 的 群体 智能 ， 当 要 解决 诸如 城市 规划 、 和 气候 适应 与 改 
善 、 维 护 世 界 和 平 之 类 问题 的 时 候 ， 往 往 需要 用 户 有 意识 地 参与 ， 通 过 
高 阶 认 知 提供 高 水 平 的 群体 智能 。 很 早 就 有 人 指出 : 规模 过 小 的 群体 无 
法 实现 科学 的 群体 决策 ， 规 模 较 大 的 群体 解决 问题 的 能 力 更 强 。 


第 二 下 
群体 学 习 : 从 个 体 镶 能 到 群体 智能 


(一 ) 个 体 智能 的 局 限 


人 工 智能 深入 人 类 智能 活动 ， 使 智能 体 具 有 丰富 而 深刻 的 社会 内 

肖 。 智 能 体 表 现 出 人 类 智能 的 复杂 性 和 多 样 性 ， 突 破 了 传统 人 工 智能 研 
究 单 纯 注重 个 体 智能 而 刻意 回避 由 社会 互动 而 产生 的 集体 智能 的 历史 局 
限 性 。 智 能 体 在 感知 当前 环境 状态 ， 对 环境 采取 试探 行为 ， 根 据 环境 的 
反馈 来 不 断 修 改 从 状态 到 动作 的 映射 集 略 ， 最 终 学 会 应 对 所 有 坏 境 状态 
的 反应 策略 。 通 过 智能 搜索 、 关 联 融 合 、 目 激活 以 及 热点 减 量 化 后 ， 镶 
能 体 友 现 数据 间 的 规律 ， 通 过 学 习 变 得 很 智 芒 ， 基 本 能 够 实现 一 定 范 围 
内 的 像 人 一 样 思 考 ， 但 是 要 开发 一 个 无 所 不 知 、 无 所 不 能 的 通用 型 人 工 
智能 ， 那 就 太 复杂 了。 单个 智能 体 在 信息 的 获取 能 力 、 处 理 能 力 、 控 制 
能 力 等 方面 都 是 有 限 的 ， 对 于 复杂 的 工作 任务 及 多 变 的 工作 环境 ， 单 个 
智能 体 的 能 力 显得 不 足 。 


人 工 智能 在 考虑 与 人 类 智能 的 类 比 时 ， 具 有 规范 化 、 可 重复 性 和 逻 
辑 性 的 特点 。 规 范 化 是 指 人 工 智 能 目前 只 能 处 理 结 构 化 信息 的 事实 ， 也 
就 是 说 ， 程 序 的 输入 必须 符合 荣 些 规范 。 重 复 性 是 指 人 工 智 能 的 机 械 性 
质 。 由 于 计算 机 具有 强大 的 计算 能 力 和 非 生 物 特性 ， 重 复 性 工作 不 会 降 
低 机 器 的 效率 或 准确 性 。 逻 辑 性 意味 看 人 工 智 能 在 处 理 符号 化 的 问题 上 
有 优势 ， 处 理 一 些 离散 的 任务 时 会 更 好 ， 而 不 是 自己 发 现 或 打破 规则 。 


智能 体 的 逻辑 理性 要 求 它 没 有 目 我 冲突 的 目标 ， 主 要 由 “合乎 逻 
辑 ” 的 信念 、 意 图 、 推 理 机 制 等 组 成 ， 并 为 此 提出 了 各 种 逻辑 体系 。 这 


样 ， 从 概念 的 角度 来 看 ， 逻 辑 理性 实现 了 理性 的 推理 环节 ， 但 对 于 一 个 
明显 处 于 动态 环境 中 ， 资 源 有 限 的 智能 体 来 说， 不仅 需 要 这 种 理性 的 推 
理 ， 更 重要 的 是 值得 去 做 这 种 推理 并 能 获得 最 大 收益 。 这 就 很 目 然 地 将 
严格 的 理性 自 利 假设 引入 智能 体 研究 中 ， 并 被 视 作 智能 体 参与 社会 互动 
的 “理性 基础 *。 在 智能 体 的 博弈 论 方法 中 ， 这 种 理性 是 在 个 人 自 利 的 假 
定 与 给 定 的 约束 条 件 下 达到 个 体 效 用 的 极 大 化 ， 其 效用 值 则 根据 信 念 、 
愿望 和 俩 好 通过 赋予 不 同 的 概率 数值 而 得 到 。 


如 宁 镶 能 体 仅 以 效用 原则 从 严格 自 利 的 理性 假设 出 发 通过 社会 博 研 
来 实现 其 整体 效用 ， 那 么 ， 根 据 同一 假设 ， 个 体 在 互动 中 叉 必 然 会 首先 
以 优化 它 自 己 的 效用 来 采取 策略 。 这 样 ， 就 可 能 会 产生 一 些 问题 : 首 
先 ， 在 传统 方法 中 ， 出 于 个 体 短 能 的 特征 ， 其 决策 原则 可 以 是 单一 的 、 
完备 的 。 但 在 一 个 开放 的 智能 体 社会 中 ， 它 的 决策 原则 更 应 根据 多 元 准 
则 而 不 仅仅 是 一 个 单一 的 效用 原则 来 进行 ， 其 次 ， 在 现实 的 博 便 过 程 
中 ， 智 能 体 如 宋 按 照 完全 理性 来 进行 博弈 ， 则 往往 达 不 到 社会 效用 的 由 
球 托 最 优 状 态 。 另 外 ， 即 便 这 种 整体 最 优 能 够 实现 ， 其 博弈 次 数 将 十 分 
尺 人 ， 无 法 在 一 个 有 限 与 有 效 的 次 数 内 完成 。 同 时 ， 博 弈 者 的 数量 也 受 
到 相当 的 限制 ， 无 法 达到 智能 体系 统 所 预 设 的 规模 。 而 且 ， 这 种 博 春 始 
终 要求 是 同一 群 博弈 者 ， 而 不 是 多 乔 能 体系 统 中 数量 在 不 断 变化 的 开放 
的 博 穿 群体。 并且 ， 它 还 会 出 现 许 多 个 均衡 解 ， 而 无 法 实时 地 提供 唯一 
的 最 优 解 。 


现实 世界 中 的 协商 大 多 是 在 动态 、 非 对 称 、 非 完全 信息 下 进行 的 。 
对 任何 个 体 来 说 ， 其 知识 都 是 一 种 局 域 性 知识 ， 而 社会 智能 的 实现 却 总 
是 有 赖 于 社会 互动 中 知识 与 信息 的 共 至 及 能 力 的 协调 ， 那 么 何 种 合作 性 
博弈 才能 在 诸多 不 对 称 条 件 下 实现 由 个 体 局 域 知识 到 社会 整体 的 知识 共 
诗 一 一 进而 殉 服 一 直 困 扰 着 诸多 研究 者 的 “共同 知识 ”难题 并 最 终 获 得 最 
优 解 ?此 外 ， 社 会 中 的 个 体 理 性 大 多 是 以 综合 其 自 里 微观 效用 和 社会 宏 
观 效用 的 复杂 的 “ 折 中 ?理性 来 进行 决策 。 实 际 博弈 中 的 个 体 理 性 要 比 目 
前 描述 的 理论 复杂 微妙 得 多 ， 且 完全 无 法 由 目前 狭隘 的 “理性 ?所 包容 和 


处 理 ， 那 么 从 上 自 利 理性 出 发 又 达 不 到 共同 知识 的 群体 博 蛮 又 怎样 才能 
到 整个 社会 效用 的 完美 均衡 ， 而 不 至 于 陷入 类 似 于 因 徒 困境 的 结局 中 

呢 ? 依照 二 典 经 济 学 观点 ， 在 没有 全 局 协调 者 的 情况 下 ， 即 使 每 个 主体 
都 严格 按照 自 利 的 理性 行动 ， 也 有 可 能 出 现 如 亚当 :斯 密 所 谓 的 “看 不 见 
的 手 ” 的 驱使 ， 达 到 个 人 理性 与 集体 理性 的 并 行 不 迟 。 按 照 当 代 集 体 选 
择 理 论 ， 个 体 理性 并 非 是 实现 集体 理性 的 充分 条 件 ， 在 博弈 中 ， 如 果 发 
生 现实 中 常常 出 现 的 诸如 共同 知识 、 坐 享 其 成 、 社 会 激励 失效 、 办 徒 困 
境 等 问题 时 ， 则 无 论 个 体 理 性 如 何 完美 地 构造 及 执行 ， 社 会 整体 理性 的 
最 优 均衡 也 绝 不 会 出 现 。 因 此 ， 在 描述 这 种 大 规模 频繁 合作 的 社会 行为 
时 ， 除 了 其 巨大 的 社会 交易 成 本 的 制约 外 《在 这 里 我 们 不 做 深入 的 讨 

论 ) ， 现 成 的 博 春 论 特 别 是 其 理性 基础 有 着 十 分 明显 的 不 足 。 这 样 ， 除 
非 我 们 对 理性 (如 有 限 理性 、 交 互 理性 等 ) 进行 更 为 深入 的 探究 并 重新 
开发 出 更 为 有 力 的 新 理论 ， 人 否则 将 给 智能 体 理 论 带 来 茶 些 难以 死 服 的 问 


匮 。 


最 后 ， 当 我 们 把 逻辑 理性 和 经 济 理性 联系 起 来 看 时 ， 使 用 符号 推理 
的 馆 辑 理性 无 法 使 决策 效用 最 优化 ， 使 用 数值 计算 的 博 蛮 理性 又 名 视 了 
理性 的 逻辑 推理 。 如 何 较 好 地 协调 这 两 种 机 制 ， 实 质 上 是 如 何 协调 好 由 
辑 推理 的 必然 性 与 决策 中 的 不 确定 性 ， 这 显然 又 是 一 个 十 分 艰难 的 问 


匮 。 


(二 ) 从 生物 群体 到 机 器 人 群体 


在 过 去 的 30 多 年 间 ， 越 来 越 多 的 哲学 家 、 认 知 科学 家 意识 到 ， 心 乔 
和 智能 的 个 体 观 片 面 强 调 了 单一 主体 反映 和 改造 世界 的 能 动 性 ， 低 估 了 
主体 在 与 他 者 、 外 部 工具 的 协同 交互 中 展现 的 智能 ， 忽 视 了 智能 本 质 上 
也 有 具有 社会 性 、 历 史 性 和 文化 性 。 戈 德 曼 在 社会 认识 论 研究 中 长 期 探索 
人 类 知识 如 何 通 过 人 人 际 交 流 、 信 息 交 换 、 社 会 交往 而 得 到 增进 。 辩 护 信 
念 的 理由 不 仅 包 括 个 人 的 证 据 ， 也 包括 他 和 人 证词、 认 知 辅助 技术 和 认 知 


分 工 等 。 类 国 加 州 革 友 苞 大 学 的 认 知 科学 家 哈 钦 斯 等 人 在 借鉴 认 知 人 类 
学 和 维 果 斯 基 心 理学 的 基础 上 研究 了 美国 海军 舰艇 上 的 船员 是 如 何 各 目 
分 工 共同 执行 认 知 任务 的 ， 从 而 主张 一 种 “分 布 式 认 知 ”的 进 路 ， 即 智能 
系统 具有 在 多 主体 和 环境 间 分 布 的 本 质 。 克 拉克 和 但 尔 英 斯 提出 的 “ 延 
展 心 智 观 ” 从 外 在 主义 的 视角 诠释 了 关于 心 乔 本 质 的 反 个 体 主义 理解 。 

他 们 认为 ， 心 乔 不 仅仅 在 个 体 的 大 脑 中 ， 也 分 布 至 个 体 的 喘 体 甚至 超出 
体 肤 延展 至 外 在 环境 。 从 物理 空间 上 讲 ， 智 能 主体 并 非 只 是 具有 脑 结构 
的 生物 个 体 ， 而 是 “大 脑 一 身体 一 工具 机 器) 一 环境 ”相互 租 入 的 灯 合 
系统 。 


从 历史 维度 上 看 ， 灵 长 类 动物 生成 智能 所 经 历 的 7 万 年 以 上 物 了 竞 天 
择 的 进化 史 是 以 种 群 为 单位 的 。 更 重要 的 是 ， 智 能 本 质 上 已 经 被 塑造 成 
个 体 、 他 者 、 环 境 在 社会 文化 背景 下 共同 的 认 知 实践 。 综 观 而 论 ，“ 社 
会 认识 论 “ 分 布 式 认 知 ”延展 心 镶 ”等 新 动 回 深 刻 影 响 着 我 们 面向 智能 
科学 的 研究 视界 。 在 人 工 智 能 领域 的 新 近 研 究 中 ， 研 究 者 也 试图 超越 传 
统 在 实验 室 中 研究 纯 机 器 人 ， 从 关注 大 脑 神经 状态 扩展 至 外 部 世界 ， 从 
关注 发 生 在 个 体 遇 上 的 心理 表征 与 过 程 转向 群体 的 社会 背景 以 及 人 机 交 
互 的 赛 博世 界 ， 进 而 寻求 模拟 人 类 或 动物 在 群体 协同 的 环境 中 所 表现 出 
来 的 整体 智能 。 


人 类 大 脑 是 一 个 典型 的 复杂 系统 。 人 脑 之 外 ， 没 有 一 个 自然 或 人 工 
系统 能 够 具有 对 新 环境 和 新 挑战 的 目 适 应 能 力 、 新 信息 与 新 技能 的 目 动 
获取 能 力 、 在 复杂 环境 中 进行 有 效 决 策 并 稳定 工作 几 十 年 的 能 力 ， 没 有 
任何 系统 能 够 在 多 处 损伤 的 情况 下 保持 像 人 脑 一 样 的 鲁 棒 性 ， 在 处 理 同 
样 复杂 的 任务 时 ， 没 有 任何 人 工 系统 能 够 媲美 人 脑 的 低能 耗 性 。 三 虽然 
每 个 神经 元 只 具备 简单 的 放电 功能 ， 但 是 干 万 个 神经 元 通过 寞 第 复杂 的 
相互 联结 和 作用 构成 了 智慧 的 大 脑 。 但 是 智慧 并 不 是 只 有 人 类 进行 复杂 
运动 才 会 体现 出 来 ， 简 单 生物 体 的 相互 作用 也 能 体现 出 智慧 。 


蚂蚁 通过 敏锐 的 嗅觉 发 现 食物 ， 并 通过 个 体 之 间 的 茶 种 沟通 方式 ， 


探求 寻找 食物 的 最 佳 路 径 。 当 环境 发 生变 化 时 ， 如 出 现 障 碍 物 阻 断 了 最 
优 通路 ， 昭 蚁 又 能 很 快 自发 找到 最 新 路 径 。 信 息 素 是 蚂蚁 群体 之 间 的 想 
法 流 。 其 他 蚂蚁 在 收 到 第 一 只 蚂蚁 传播 的 信息 素 时 ， 束 会 跟随 第 一 只 蚂 
蚁 的 路 径 寻 找 食 物 ， 并 在 往 回 搬运 食物 的 同时 传播 信息 素 。 假 设 从 桌 六 
到 食物 之 间 有 两 条 路 径 ， 一 条 长 一 条 短 。 由 于 信息 聚会 随时 间 逐 渐 挥 
发 ， 长 度 较 长 的 路 径 在 挥发 兵 信 息 勾 的 同时 得 不 到 新 的 信息 素 更 新 。 那 
条 较 短 的 路 径 由 于 被 重复 的 次 数 较 多 ， 故 而 记录 下 更 浓 的 信息 素 ， 于 是 
有 更 多 的 蚂蚁 和 梓 吸 引 过 来 ， 从 而 进一步 加 强 这 条 路 上 的 信息 素 。 就 这 
样 ， 通 过 信息 妹 的 相互 作用 ， 蚂 蚁 找到 连接 食物 和 巢穴 之 间 的 最 短路 


大 
径 。 


智能 群体 是 指 大 量 低 智 能 个 体 通 过 个 体 之 间 的 局 部 相互 作用 使 得 群 
体 表 现 出 高 智能 的 社会 化 系统 。 智 能 群体 具有 两 个 显著 的 特征 : 一 个 是 
个 体 的 低 智 能 ， 但 以 群体 为 单位 表现 出 超过 个 体 智 能 总 和 的 高 智能 ， 二 
是 虽然 每 个 个 体 都 有 自私 性 ， 但 在 群体 解决 问题 时 体现 出 利他 性 的 协 
作 。1911 年 ， 一 篇 爆炸 性 短文 “刊登 在 《形态 学 杂志 》 上 的 《作为 有 机 
体 的 蚁 群 》) 中 ， 惠 勒 断言 ， 无 论 从 哪个 重要 上 且 科学 的 层面 上 来 看 ， 昆 
虫 群体 都 不 仅仅 类 似 于 有 机 体 ， 它 就 是 一 个 有 机 体 。 他 写 道 : 就 像 一 个 
细胞 或 者 一 个 人 ， 它 表现 为 一 个 一 元 整体 ， 在 空间 中 保持 自己 的 特性 以 
抗拒 解体 .….….. 既 不 是 一 种 物事 ， 也 不 是 一 个 概念 ， 而 是 一 种 持续 的 波 涌 
或 进程 。“ 二 智能 群体 通过 自身 的 调控 在 变化 英 测 的 环境 中 以 自 喘 为 参考 
系 不 断 协同 运作 达到 一 个 新 的 稳定 状态 。 和 群体 中 的 每 个 个 体 决 策 与 行动 
征 各 目 独 立 的 ， 独 立 进行 各 目的 更 新 调节 ， 没 有 先后 顺序 ， 属 于 异步 
行 操 作 。 同 时 ， 和 群体 拥有 强大 的 维持 平衡 的 能 力 ， 不 会 因为 东 个 个 体 的 
死亡 或 受 损 使 得 整个 群体 混乱 或 朋 满 。 


群体 机 器 人 是 一 种 特殊 的 多 机 器 人 系统 ， 通 常 是 由 许多 自主 的 机 器 
人 组 成 ， 具 有 典型 的 分 布 式 系统 特征 。 与 一 般 的 多 机 器 人 系统 所 具有 的 
任务 规划 和 指 浅 等 高 级 智能 不 同 ， 群 体 机 器 人 技术 更 加 注重 研究 结构 简 
单 且 能 力 有 限 的 机 器 人 个 体 。 个 体 通过 局 部 交互 和 群体 控制 ， 涌 现 出 群 


体 智 能 以 合作 完成 相对 复杂 的 任务 。 由 于 群体 机 器 人 系统 在 简单 性 、 重 
棒 性 、 适 应 性 上 具有 的 独特 优势 ， 其 应 用 前 景 古 非常 广阔 的 。 所 以 ， 了 
解 群体 的 机 器 个 体 之 间 如 何 通过 自 组 织 的 协调 完成 任务 以 及 个 体 行为 如 
何 影响 群体 行为 是 非 第 有 必要 的 。 


生物 群体 的 跟随 和 保持 同步 是 群体 背后 的 隐 秩 序 ， 是 机 器 群体 的 实 
现 基 础 。 寻 找 隐 藏 群体 秩序 是 发 现 群 体 智能 的 关键 。 过 去 ， 人 们 认为 屁 
虫 群 、 鱼 群 或 者 乌 群 是 通过 条 种 第 六 感 ， 或 者 通过 茶 种 “群体 意识 ”实现 
其 惊人 的 协调 一 致 的 运动 ， 在 群体 中 的 个 体 以 牺牲 个 性 为 前 提 ， 成 为 群 
体 意识 的 仇 偏 。 然 而 随 看 复杂 性 科学 的 发 展 ， 动 物 学 家 友 现 这 种 群体 行 
为 并 不 是 像 之 前 认识 的 那样 。 在 群体 中 ， 相 邻 成 员 之 间 通 过 简单 规则 的 
相互 作用 ， 目 然而 然 地 表现 出 群体 的 有 序 性 。 科 学 家 不 断 地 实践 证 明 ， 
跟随 和 保持 同步 于 隐藏 在 群体 背后 的 秩序 ， 是 引导 群体 做 出 智能 化 行为 
的 原因 。 


昆虫 群体 智能 研究 碗 定 了 人 工 智 能 遗传 算法 的 基础 。 遗 传 算法 没有 
把 学 习 分 为 训练 和 执行 ， 而 古 在 执行 中 学 习 。 昆 虫 无 顷 大 脑 的 和 干预， 在 
一 定 规则 下 ， 仅 凭 四 胶 和 关 贡 的 协调 就 能 够 适应 环境 ， 在 群体 层面 涌现 
出 智能 。 这 样 的 智能 不 是 源 于 目 上 而 下 的 复杂 设计 ， 而 是 源 于 目下 而 上 
与 环境 的 互动 。 生 物体 对 环境 的 适应 会 连 使 生物 进化 ， 实 现 从 简单 到 复 
杂 、 从 低 等 到 高 等 的 跃迁 。 


2014 年 ， 哈 佛 大 学 的 研究 人 员 设 计 了 一 个 叫 Kilobot (云集 机 器 人 ) 
的 机 器 人 系统 ， 由 1 ”024 个 小 型 机 器 人 组 成 ， 它 们 在 没有 人 类 帮助 的 情 
况 下 ， 有 序 地 、 自 组 织 地 形成 复杂 的 三 维 形 状 。 研 究 人 员 在 设计 的 时 候 
加 入 了 一 个 包含 三 种 初级 集体 行为 的 自 组 织 算法 ， 这 三 种 行为 包括 : 机 
器 人 沿 着 群体 的 边缘 移动 ; 机 器 人 能 够 产生 梯度 信息 并 发 送 给 其 他 机 器 
人 ; 机 器 人 通过 通信 和 距离 检测 来 定位 ， 群 体 中 的 每 个 机 器 人 都 具有 相 
同 的 算法 程序 ， 知 晓 期 望 的 二 维 形状 。 在 机 器 人 实体 设计 和 算法 设计 的 
基础 上 ， 研 究 人 员 用 大 规模 机 器 人 群体 实现 了 自然 界 中 生物 所 具有 的 通 


过 集体 行为 形成 复杂 结构 的 能 


群体 中 的 每 个 个 体 都 尽力 执行 给 定 的 行为 规则 ， 从 而 群体 产生 逐 层 
而 上 的 有 序 行为 。 我 们 知道 ， 智 能 群体 中 个 体 的 智能 性 很 低 ， 但 是 它们 
都 具有 保护 目 身 利益 的 理性 ， 期 望 目 身 的 利 普 能 够 最 大 化 。 这 些 目 私 个 
体 的 损 己 利 他 行为 ， 我 们 称 之 为 合作 。 不 难 想 稍 ， 如 果 每 个 个 体 都 只 顾 
目 己 的 利益 ， 不 愿 与 其 他 个 体 合 作 ， 不 执行 给 定 的 行为 规则 ， 那 么 整个 
群体 就 会 陷入 混乱 与 骨 尝 ， 从 而 不 会 产生 整体 上 的 有 序 行为 ， 整 个 群体 
的 智能 性 也 就 失去 了 根基 。 因 此 ， 和 群体 中 时 刻 保持 合作 性 是 维系 整个 群 
体 智 能 性 的 必要 前 提 。 


(三 ) 群体 机 器 人 的 行为 协作 


如 何 超越 个 体 ， 最 优化 整合 不 同 个 体 的 智能 ， 涌 现 出 宏观 的 群体 智 
能 ? 不 难 发 现 ， 无 论 在 自然 界 还 是 人 类 社会 ， 个 体 智能 的 聚合 并 不 必然 
产生 更 高 的 群体 智能 ， 比 如 社会 心理 学 中 存在 着 个 体 智 能 聚合 产生 不 良 
群体 意见 的 案例 。 个 体 的 样本 大 小 、 认 知 偏见 、 情 绪 类 型 、 外 在 环境 的 
优 务 情况 等 在 群体 整合 中 都 发 挥 厦 不 同 的 作用 ， 影 响 痢 群体 的 认 知 表 
现 。 当 前 ， 人 工 群 体 智能 的 研究 主要 集中 在 对 具体 算法 的 优化 上 ， 对 于 
复杂 世界 中 群体 智能 模型 构成 的 统一 规则 并 没有 足够 的 认识 。 昌 然 人 工 
群体 智能 与 基于 单 主 体 的 人 工 智 能 在 智能 层次 上 有 痢 本 质 兰 别 ， 但 是 类 
言 人 工 群 体 智 能 已 经 是 一 种 通用 智能 仍 为 时 尚 早 。 


机 器 人 加 入 生物 群体 ， 同 样 能 够 产生 群体 行为 ， 并 且 机 器 人 能 够 明 
显 地 影响 整个 生物 群体 的 行为 。2007 年 ，《 科 学 》 上 发 表 了 一 篇 有 意思 
的 论文 ， 其 研究 结果 受到 广泛 关注 。 研 究 人 员 把 一 种 螃 螂 机 器 人 混入 真 
虹 螂 群体 中 ， 昱 螂 机 器 人 外 形 上 不 像 粮 螂 ， 只 是 在 外 表 数 了 与 真 粮 螂 号 
体 表面 的 化 学 组 成 成 分 类 似 的 图 屋 ， 让 真 早 螂 确信 这 是 自己 的 同类 。 蜡 
螂 成 群 活动 ， 豆 欢 黑 暗 。 它 们 的 行为 受 两 个 因素 的 影响 : 伙伴 的 行为 和 


环境 的 因 系 。 妆 和 面 对 明 上 暗 不 同 的 两 个 藏 遇 地 点 时 ， 科 学 家 控制 的 几 个 蝶 
螂 机 器 人 选择 了 腕 一 点 的 去 处 。 尽 管 行 为 稍 显得 异常 ， 但 机 器 粮 螂 成 功 
地 影响 了 整个 粮 螂 群 ， 其 他 的 暗 螂 也 跟 痢 前往， 实验 结果 表明 ， 通 过 程 
序 控制 的 粮 螂 机 器 人 能 够 明显 地 影 啊 整 个 群体 行为 。 简 单机 器 人 在 生物 
群体 里 的 控制 问题 ， 对 于 研 完 群体 乔 能 的 理论 指导 有 巨大 价值 。 


在 复杂 或 开放 环境 中 ， 多 机 器 人 协调 系统 比 单 体 机 器 更 具有 优越 
性 ， 如 并 行 性 、 和 柔性 及 鲁 棒 性 。 目 前 的 机 器 人 技术 水 平 有 限 ， 为 了 完成 
一 个 开放 性 的 任务 ， 高 度 智能 机 器 人 或 成 本 太 高 ， 或 难以 实现 ， 单 体 机 
项 人 的 能 力 更 为 不 足 。 以 进行 团队 合作 的 名 义 ， 给 一 组 特定 机 右 人 分 配 
特定 的 任务 。 多 机 器 人 协作 能 够 在 不 同 的 工作 区 域 和 时 间 同 时 作业 ， 利 
用 机 器 人 功能 的 个 体 化 兰 异 更 好 地 协同 工作 。 多 机 器 人 通过 共 宇 资源 信 
恩 、 知 识 、 物 理 装 置 等 弥补 单 体 机 峰 人 能 力 的 不 足 ， 扩 大 完成 任务 的 能 
力 范 围 ， 系 统 利用 内 在 的 分 布 特性 提高 完成 任务 的 效率 ， 利 用 系统 内 机 
器 人 资源 的 元 余 性 提高 完成 任务 的 可 能 性 ， 增 强 系统 的 性 能 。 


多 机 器 人 协作 是 群体 智能 的 表现 形式 。 从 协作 的 方式 以 及 协调 性 的 
表现 形式 来 看 ， 协 作 可 分 为 两 种 类 型 ， 有 意识 协作 和 无 意识 协作 。 所 谓 
有 意识 协作 是 指 多 个 机 右 人 通过 信息 交互 “包括 信息 交换 、 意 图 协调 
等 ) 来 协调 各 目的 行为 ， 共 同 完 成 系 一 任务 或 实现 共同 的 目标 。 通 常 系 
统 中 的 机 器 人 具有 明确 的 协调 机 制 ， 用 于 对 其 他 机 器 人 的 行为 进行 推 
理 ， 并 在 必要 时 进行 协商 。 


群体 机 器 是 许多 机 器 人 按照 一 定 的 结构 、 关 系 、 模 式 结合 起 来 为 了 
完成 某 一 项 目标 构成 的 一 个 整体 。 建 立 有 效 的 机 器 人 组 织 结构 可 以 增强 
机 器 人 群体 系统 的 协作 程度 。 机 器 人 要 基于 一 定 的 策略 、 协 调 机 制 、 社 
会 规则 等 有 机 地 组 织 起 来 ， 通 过 组 织 结构 知识 获得 关于 系统 整体 行为 的 
全 局 观点 ， 从 而 采取 有 效 策 略 引 导 局 部 控制 实现 协作 。 组 织 络 构 可 以 是 
平行 的 、 弟 阶 的 或 混合 型 的 ， 这 要 根据 具体 的 任务 、 具 体 的 系统 进行 区 
别 对 符 。 但 无 论 如 何 ， 组 织 结构 都 需要 具有 不 同 分 目标 的 多 个 机 器 人 对 


其 总 目标 、 资 源 等 进行 合理 安排 ， 以 调整 各 目的 行为 ， 尽 可 能 地 实现 共 
同 的 目标 。 


机 器 人 个 体 行 为 包括 对 环境 的 感知 、 学 习 、 啊 应 以 及 目 适 应 动作 的 
协调 能 力 。 机 器 人 个 体 应 表现 出 较 强 的 协作 性 和 目 主 性 。 上 自主 性 是 指 机 
器 人 应 具有 一 定 的 目 主 能 力 、 应 能 感知 环境 的 变化 并 作用 于 环境 ， 协 作 
性 是 指 机 器 人 协同 工作 的 能 力 。 系 统 的 协调 行为 在 很 大 程度 上 依赖 如 何 
处 理 机 器 人 的 上 自主 与 协作 之 间 的 关系 。 
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和 A 一 十 上 


有 
群体 空间 : 人 脑 上 智慧 和 机 器 和 党 能 的 交互 


(一 ) 人 机 优势 互补 


智能 碰撞 是 激活 数据 学 中 数据 价值 的 宏观 涌现 的 过 程 。 目 激活 后 的 
智能 体 与 人 类 聚集 成 群体 网 络 ， 利 用 役 此 之 间 的 高 度 活跃 性 互相 融合 聚 
变形 成 创新 性 的 想法 ， 最 终 释 放大 量 的 数据 价值 。 将 人 类 引入 人 工 智 能 
系统 中 ， 可 以 实现 在 模糊 问题 中 的 分 析 啊 应 高 级 认 知 机 制 与 机 器 智能 系 
统 之 间 的 紧密 耦合 ， 群 体 通过 集成 人 类 感知 和 认 知 能 力 、 机 器 计算 和 存 
储 能 力 来 处 理 大 数据 时 代 的 结构 化 和 非 结构 化 数据 ， 二 者 相互 适应 、 协 
作 ， 最 终 总 体 上 死 服 各 目的 局 限 ， 达 到 完美 群体 的 效果 。 


智能 体 通 过 数据 的 智能 搜索 、 关 联 融 合 、 自 激活 、 热 点 减 量化 后 能 
够 更 快 、 更 好 发 现 规 律 知识 。 随 着 数据 的 迭代 ， 人 工 智能 能 够 更 好 地 学 
习 人 类 几 干 年 来 肥 展 与 进化 过 程 中 所 积累 的 完整 知识 ， 信 助 完整 知识 库 
对 复杂 事物 进行 预测 与 判断 的 准确 度 越 来 越 高 。“ 谷 歌 大 脑 ? 项 目 利用 谷 
歌 的 分 布 式 计算 框架 和 大 量 的 人 工人 神经 网 络 ， 在 没有 任何 先 验 知识 的 情 
况 下 ， 仅 仅 通过 观看 无 标注 的 YouTube 视 频 ， 学 习 识 别 高 级 别 的 概念 ， 
通过 一 个 月 的 时 间 ， 智 能 体 就 能 识别 “ 猜 ”。 


传统 心理 学 认为 人 类 智能 主要 体现 在 人 类 拥有 学 习 、 判 断 、 分 析 的 
能 力 ， 还 有 战略 、 博 穿 、 决 集 、 统 符 等 思维 能 力 ， 然 而 这 些 能 力 渐渐 被 
人 工 智能 退 赶 上 来 ， 就 连 最 变 约莫 测 的 围棋 ， 在 人 工 智能 面前 都 显得 那 
么 轻而易举 。 因 此 ， 人 机 优势 的 互补 将 推动 智能 机 器 更 主动 、 更 有 意识 
地 关联 周围 环境 ， 甚 至 对 未 来 有 所 期 许 和 规划 。 尤 其 在 一 些 看 似 简 单 ， 


但 需要 直觉 、 灵 感 、 顿 悟 和 创造 性 思维 的 领域 ， 进 行 有 效 的 直觉 判断 、 
交感 交流 、 创 新 思维 。 至 于 将 已 有 的 知识 进行 综合 创新 ， 如 阿 基 米 德 在 
洗 误 时 灵光 一 内 发 现 浮力 定律 、 牛 顿 看 见 苹 果 落 地 发 现 万 有 引力 则 是 人 
工 智 能 的 下 一 个 愿景 。 机 器 学 习 与 人 的 交互 ， 将 进一步 让 我 们 理解 真实 
的 世界 环境 ， 比 人 脑 更 好 地 处 理 不 完整 的 信息 和 复杂 的 时 空 相关 任务 。 
基于 人 机 交互 的 机 器 学 习 系 统 将 尽 可 能 地 描述 人 脑 在 认 知 因 了 于 和 认 知 功 
能 的 频谱 中 的 相互 作用 ， 实 现 大 脑 神经 系统 的 高 可 塑性 。 


让 人 工 智能 像 人 类 一 样 感知 和 理解 世界 。 当 前 ， 我 们 已 经 拥有 强大 
的 计算 能 力 和 出 色 的 数据 搜集 能 力 ， 利 用 数据 进行 推理 这 一 问题 已 不 是 
开发 先进 人 工 智能 道路 上 的 障碍 ， 但 这 种 推理 能 力 建立 在 数据 的 基础 之 
上 。 接 下 来 ， 还 要 通过 人 机 互补 ， 让 人 工 智 能 进一步 感知 真实 世界 。 相 
比 之 下 ， 机 器 学 习 系 统 只 是 按照 人 设计 的 程序 去 处 理 和 分 析 输 入 的 信 
恩 。 要 实现 具有 人 类 水 平 的 人 工 乔 能 ， 机 器 需要 具备 对 目 然 界 的 丰富 表 
征 和 理解 的 能 力 。 例 如 ， 阿 尔 法 狗 元 不 需要 学 习 大 量 被 人 类 标注 过 的 样 
本 ， 只 需要 教会 它 围棋 的 基本 规则 ， 通 过 纯 强 化 学 习 的 方法 ， 将 策略 网 
络 和 价值 网 络 整合 到 一 个 框 染 中 ， 束 能 够 实现 人 类 的 超越 ， 这 解决 了 片 
面 依靠 海量 大 数据 训练 模型 的 旧 模 式 ， 探 索 出 了 人 工 智能 发 展 的 新 模 
式 。 但 是 在 开放 环境 中 ， 人 工 短 能 应 对 环境 变化 的 能 力 还 是 比较 低 的 。 
因此 ， 如 果 没 有 人 机 互补 ， 人 类 犯错 后 的 水 平 从 九段 降 到 八 段 ， 但 机 器 
犯错 后 从 九段 降 到 零 。 


(二 ) 机 器 智能 进 阶 


物 的 数字 化 表达 ， 为 突破 人 机 交互 屏障 提供 了 可 能 。 最 初 将 人 与 设 
备 连接 起 来 进行 交互 控制 的 媒介 ， 是 1868 年 美国 人 克 里 斯 托 夫 : 拉 森 : 肖 
尔 斯 发 明 的 打字 机 ， 也 和 古 键 盘 最 早 的 稚 形 ， 人 们 首次 通过 键盘 和 输入 字符 
命令 来 完成 人 与 计算 机 之 间 的 交流 控制 ， 到 1964 年 ， 美 国人 道格拉斯 
恩格尔 巴特 发 明 的 鼠标 帮助 人 们 用 设备 控制 计算 机 中 的 图 形 界 面 以 达到 


人 机 交互 的 目的 ， 再 到 1971 年 ， 美 国人 山姆 : 赫 斯 特 发 明 的 一 种 提高 工 
作 效 率 的 设备 ， 通 过 把 网 形 呈 现在 平板 界面 上 或 者 用 笔 在 平板 上 施加 压 
力 后 完成 操作 控制 ， 产 生 了 最 早 的 触 控 屏 设 备 “Accu Touch”。 人 机 交互 
控制 设备 经 过 键盘 、 鼠 标 、 触 控 屏 为 代表 的 发 展 历程 ， 使 用 手指 进行 操 
作 已 慢 慢 成 为 现 阶段 主流 ， 手 势 、 语 音 识 别 和 上 身 势 识别 的 交互 技术 也 在 
蓬勃 有 发展， 这些 都 说 明了 科技 在 改变 人 们 的 生活 。 


脑 机 接口 的 出 现 ， 打 破 了 常规 人 机 互动 的 方式 。 脑 机 接口 是 建 六 人 
脑 或 动物 脑 与 外 部 设备 之 间 的 信息 交换 的 连接 通路 。 现 阶段 脑 机 接口 已 
经 实现 了 意识 打字 和 心灵 控制 ， 未 来 甚至 能 够 使 人 获得 更 强大 的 感知 能 
力 ， 比 如 将 非 人 类 感知 能 力 〈 感 知 超声 波 、 感 知 磁场 ) 转 变 成 为 人 类 感 
知 能 力 。 电 脑 对 人 类 思维 意识 的 实时 准确 识别 ， 一 方面 有 助 于 人 类 更 加 
了 了解 大 脑 的 活动 特征 ， 更 好 地 模仿 大 脑 以 产生 更 高 级 的 机 器 智能 ， 力 一 
方面 可 以 让 机 器 更 好 地 与 人 类 协同 。 集 体 的 碰撞 激发 智慧 ， 避 免 了 个 体 
智慧 的 缺失 。 


人 类 情报 信息 处 理 机 制 有 两 个 方面 ， 一 种 是 自然 进化 过 程 ， 它 要 求 
人 类 智能 系统 能 够 对 环境 和 目 身 的 状态 进行 建 模 ， 然 后 提供 一 个 模型 ， 
形成 风险 和 价值 的 度量 ;为 一 种 是 “选择 性 注意 ”， 它 提 供 了 一 个 有 效 的 
机 制 ， 全 面 判 断 风 险 或 价值 ， 并 在 复杂 的 环境 粒 选 天 键 因 素 ， 如 儿 重 在 
人 和 群 中 寻找 父 杀 的 脸 。 在 许多 情况 下 ， 风 险 和 价值 判断 是 基于 持续 循环 
思维 活动 的 预测 和 在 选择 基础 上 的 认 知 模型 、 验 证 思维 活动 的 发展 和 改 
进 的 认 知 模式 ， 如 总 结 一 个 抽象 或 公式 化 的 经 验 作 为 一 个 定理 。 人 类 智 
能 进化 过 程 中 ， 除 了 共性 特征 外 ， 还 呈现 个 体 体 验 《〈 记 忆 ) 、 价 值 取 向 
(心理 因素 ) ， 甚 至 是 微观 分 化 的 “神经 表达 ”等 个 别 差 异 。 例 如 ， 在 不 
同 的 人 脑 中 ， 同 一 张 面 孔 的 表现 可 能 不 同 。 激 活 数据 学 的 5 个 步骤 可 以 
利用 生物 智能 的 认 知 模型 来 完成 “ 建 模 ”的 过 程 ， 并 形式 化 其 表达 方式 。 
最 后 ， 利 用 现代 计算 机 的 优点 来 实现 有 效 的 协同 计算 。 


人 机 智能 碰撞 能 够 使 机 器 实现 认 知 目标 。 以 一 个 特定 的 认 知 任务 作 


为 出 及 点 或 目标 ， 智 能 体 与 人 的 交互 实现 自 下 而 上 基于 感知 的 选择 性 注 
意 ， 同 时 在 智能 体内 部 的 机 器 学 习 能 够 实现 和 目 上 而 下 基于 规则 的 选择 性 
注意 ， 在 这 两 种 选择 性 注意 的 达 代 下 ， 知 能 体 根据 满足 客观 的 任务 所 需 
的 信息 ， 逐 渐 开 始 一 种 思维 活动 ， 而 不 是 只 限于 以 知识 为 基础 的 处 理 。 
面 对 缺 乏 经 验 的 问题 ， 智 能 体 有 一 个 循环 迭代 因果 模型 ， 它 会 目 动 提问 
诸如 下 一 步 该 怎么 办 ? 它 产生 了 预期 的 结果 吗 ? 是 否 要 进行 进一步 的 努 
力 或 尝试 其 他 方法 ? 在 这 样 一 个 过 程 中 ， 对 环境 的 理解 和 指导 有 是 基于 推 
理 和 经 验 〈 长 期 记忆 ) 而 丰富 起 来 的 ， 并 相应 地 增强 了 “验证 ?的 能 

利用 因果 模型 的 后 验 概率 (观察) 来 更 新 先 验 概率 〈 预 测 ) ， 根 据 给 定 
数据 的 概 紊 分析、 时间 与 空间 想象 或 预测 来 完成 天 联 分 析 〔 例 如 随 着 时 
间 的 推移 空间 变化 ，， 提 供 对 环境 或 情况 的 理解 、 补 充 和 判断 。 应 用 先 
验 知 识 来 丰富 数据 的 推理 ， 达 到 良好 的 泛 化 能 力 和 快速 的 学 习 速 度 。 


智能 碰撞 实现 了 人 类 决策 与 机 器 智能 的 逻辑 推理 、 演 绎 推理 的 优势 
结合 。 人 类 决策 依赖 直觉 判断 和 理性 判断 ， 研 究 表 明 ， 人 类 直觉 判断 的 
平均 准确 度 高 于 理性 判断 。 直 党 是 人 脑 中 的 一 系列 过 程 ， 包 括 高 速 分 
析 、 反 饿 、 决 策 ， 人 类 在 日 常生 活 中 通过 直 党 做 出 许多 决定 ， 比 如 判断 
两 个 物体 的 接近 度 ， 从 别人 的 音调 感知 友好 程度 ， 选 择 伴侣 或 图 书 。 直 
党 性 的 决 集 不 仅 是 第 识 ， 它 需要 更 多 的 传 感 费 来 感知 外 部 的 信息 ， 对 这 
些 新 信息 编码 、 组 合 ， 并 与 旧 信 息 做 对 比 ， 当 新 旧 信息 之 间 达 到 某 种 程 
度 的 相似 性 时 ， 和 人 人们 可 以 利用 这 种 相似 性 来 更 好 地 理解 新 信息 。 和 直觉 帮 
助人 类 在 复 森 和 动态 的 环境 中 做 出 快速 的 决定 ， 大 大 减少 了 在 解决 问题 
的 过 程 中 的 搜索 空间 ， 人 类 认 知 过 程 变 得 更 加 有 效率 。 


人 机 智能 碰撞 能 够 辅助 机 器 实现 认 知 、 决 策 的 优化 。 人 类 的 直觉 推 
理 与 大 脑 的 先 验 知识 处 理 能 力 密 切 相 关 。 这 种 能 力 基于 抽象 和 泛 化 的 记 
忆 ， 而 不 是 先前 知识 的 死记 硬 背 。 因 为 人 类 拥有 这 种 能 力 ， 人 类 的 直觉 
可 以 做 出 快速 、 精 准 的 决策 。 虽 然 机 器 具有 符号 计算 的 能 力 和 人 脑 无 法 
匹配 的 存储 容量 ， 但 现 有 的 机 需 学 习 算 法 难以 实现 上 述 功能 ， 只 有 通过 
搜索 尽 可 能 多 而 全 的 数据 ， 才 能 发 现 数据 之 间 的 强 关 联 、 弱 关联 、 洪 在 


关联 关系 ， 从 而 激活 智能 体形 成 决策 空间 ， 热 点 减 量 化 得 选 出 较 优秀 的 
决策 。 


假如 直觉 决 策 算是 决策 空间 最 优 解 ， 那 么 人 类 直觉 可 以 作为 智能 体 
决 倘 初始 达 代 值 。 在 解决 简单 问题 时 ， 初 始 达 代 值 并 不 重要 。 在 解决 复 
杂 问 题 时 ， 传 统 的 机 器 推理 方法 很 可 能 会 陷入 局 部 极 小 值 ， 直 觉 推 理 可 
以 提供 一 个 合理 的 初始 迭代 位 置 ， 从 而 可 以 在 很 大 程度 上 避免 局 部 极 小 
问题 。 真 实 的 决策 空间 通常 是 复杂 的 ， 结 构 上 也 无 法 界定 。 因 此 ， 初 始 
迭代 位 置 的 选择 是 至 关 重 要 的 ， 甚 至 可 以 决定 最 终结 果 是 否 是 全 局 最 优 
解 。 在 一 般 的 机 器 学 习 方 法 中 ， 初 始 迭 代 的 位 置 通 闻 是 牺牲 了 算法 的 泛 
化 能 力 ， 例 如 引入 强 假设 和 增加 人 的 和 干预， 构建 脑 局 发 式 的 机 器 直观 推 
理 方法 ， 可 以 避免 局 部 极 小 的 问题 ， 提 高 人 工 智 能 系统 的 泛 化 能 力 。 然 
后 ， 我 们 可 以 明确 模型 的 不 确定 性 问题 。 直 和 觉 决 朱 并 不 寻求 找到 目标 解 
位 置 的 绝对 解 ， 而 是 要 评估 偏离 基准 点 是 否 更 有 利于 避免 损失 。 


阿尔 法 狗 的 成 功 可 以 看 作 机 器 直觉 推 理应 用 的 成 功 范 例 。 阿 尔 法 狗 
的 解决 空间 几乎 不 可 能 耗 尽 ， 基 于 规则 或 穷尽 搜索 的 方法 不 能 使 阿尔 法 
狗 程 序 达 到 人 关 级 别 。 它 的 直觉 反 映 在 由 政策 网 络 和 价值 网 络 实现 
的 “感觉” 模拟 。 政 朱 网 络 是 快速 判断 移动 的 地 方 ， 即 可 以 考虑 是 人 否 可 以 
行动 。 价 值 网 络 评估 总 体位 置 。 阿 尔 法 狗 通 过 海量 训练 ， 强 化 服务 器 和 
机 器 学 习 来 获得 “感觉 "去 缩小 搜索 空间 。 


(三 ) 人 机 社会 化 协作 


人 工 智能 作为 人 类 感官 和 智力 的 延伸 ， 是 让 机 器 具备 人 类 一 样 的 行 
动能 力 及 思维 能 力 。 人 工 智 能 是 人 造 系统 所 具有 的 一 种 模仿 、 拓 展 和 超 
越 人 类 智能 的 能 力 。 当 人 造 系 统 能 够 像 人 一 样 具有 一 定 的 认 知 能 力 ， 即 
有 感知 、 会 分 机 、 目 决策 、 善 动作 ， 并 且 在 分 析 与 决策 过 程 中 做 于 运用 
知识 ， 同 时 学 习 、 积 累 万 至 创造 知识 ， 就 称 其 具有 某 种 人 造 智能 。 人 造 


智能 ， 包 含 了 所 有 由 人 开发 和 建立 的 人 造 系 统 的 智能 ， 例 如 源 于 信息 技 
术 领 域 的 人 工 乔 能 、 认 知 计算 、 互 联网 大 脑 等， 以 及 源 于 制造 技术 领域 
的 基于 传感器 和 目 动 化 技术 的 工业 智能 。 


19 世 纪 巴 贝 奇 发明 计 算 机 ， 企 图 用 机 需 获 代 人 类 的 计算 能 力 ， 这 征 
技术 进化 到 延伸 人 类 智力 阶段 的 起 点 。20 世 纪 40 年 代 现 代 计算 机 的 出 现 
是 技术 延伸 人 类 智力 的 重要 里 程 碑 。 现 代 计 算 机 最 初 只 具有 记忆 、 计 算 
能 力 ， 后 来 逐渐 具有 了 所 辑 、 语 言 文字 处 理 、 谱 曲 、 辨 识 、 认 知 、 交 流 
等 多 种 智能 功能 。 遥 感 技术 、 全 球 定 位 系统 、 地 理 信 息 系 统 以 及 目 动 观 
察 撤 术 和 数据 传输 处 理 技 术 的 结合 ， 正 在 不 断 拓 展 人 类 对 地 球 的 观察 能 
力 和 分 析 能 力 。 人 工 智 能 的 出 现 与 发 展 的 目的 是 解放 人 类 丈 动 力 ， 让 人 
类 更 能 适应 复杂 多 变 的 社会 环境 ， 让 生活 更 美好 。 


人 机 智能 碰撞 正在 深刻 地 改变 人 类 之 间 的 关系 和 互动 模式 。 智 能 机 
器 已 经 成 为 人 类 的 亲密 伙伴 ， 人 类 和 智能 机 器 之 间 的 相互 作用 和 合作 将 
成 为 我 们 未 来 社会 形成 的 组 织 部 分 。 在 人 工 智 能 的 帮助 下 ， 人 类 解决 了 
工程 技术 、 科 学 研究 和 人 类 社会 活动 的 各 个 领域 的 高 复杂 性 、 不 确定 性 
和 脆弱 性 的 问题 ， 并 不 断 推 动 社会 的 发 展 。 人 合理、 有 效 地 利用 人 工 智 能 
技术 ， 可 以 极 大 地 促进 有 价值 的 创新 ， 提 高 人 类 和 机 融 的 竞争 力 。 因 
此 ， 人 工 智能 不 再 是 孤立 的 ， 而 是 人 类 进化 的 一 部 分 。 


为 了 充分 利用 有 限 资 源 ， 产 生 更 有 效 的 个 体 机 器 智能 ， 聚 集 机 器 或 
人 也 是 一 个 有 效 途 径 。 智 能 的 提升 一 方面 来 自 个 体 的 目 身 有 发展， 帮 一 方 
面 来 自 群 体 之 间 的 交流 与 协作 。 多 人 工 智能 体 协 作 、 共 同 决策 在 电 丙 、 
游戏 、 医 疗 健康 等 领域 中 人 类 不 擅长 的 复杂 问题 都 有 广泛 的 应 用 前 景 。 
个 体 机 器 智能 的 发 展 离 不 开 数 据 分 析 和 模型 搭建 但 是 在 这 个 过 程 中 ， 
由 于 数据 的 有 效 性 、 模 型 的 完备 性 、 计 算 力 强度 等 不 均衡 ， 导 致 最 终 出 
现 的 个 体 机 器 乔 能 参差 不 齐 。 在 学 习 过 程 中 ， 每 个 个 体 机 器 智能 都 具有 
个 性 化 的 知识 、 能 力 和 经 验 ， 在 相互 平等 、 资 源 互 补 的 学 习 中 能 够 有 效 
地 传承 和 发 挥 优势 。 这 是 在 畦 纸 同 一 个 主题 下 开展 的 互相 分 享 、 相 互 局 


发 的 过 程 ， 生 成 新 的 资源 ， 从 而 提高 个 体 机 器 的 智能 化 。 同 伴 之 间 相 互 
学 习 可 以 获得 学 习 和 设计 经 验 ， 连 续 不 断 的 学 习 过 程 和 干预 也 可 以 促进 
个 体 智能 的 上 升 。 


人 类 对 开放 系统 中 不 确定 性 问题 的 分 析 和 认 知 与 机 器 超 强 的 逻辑 性 
和 计算 能 力 相 互 耦 合 ， 两 者 协同 完成 指定 任务 ， 达 到 1+1 > 2 的 增强 智 
能 效果 。 人 是 智能 机 器 的 终极 “价值 判断 ?的 服务 对 象 和 仲裁 者 ， 在 机 器 
智能 进化 过 程 中 ， 人 类 对 机 器 的 干预 一 直 存 在 。 智 能 系统 中 有 许多 需要 
解决 的 问题 ， 比 如 在 人 机 交互 中 ， 机 器 如 何 理解 人 类 在 历史 进化 过 程 中 
所 形成 的 语言 的 细微 差别 。 特 别 是 在 一 些 重要 的 应 用 中 避免 人 工 乔 能 的 
认 知 局 限 性 所 造成 的 风险 甚至 危害 ， 如 医疗 诊断 和 司法 审判 系统 。 为 了 
解决 这 些 问题 ， 必 然 引 入 人 的 监督 、 互 动 和 参与 来 进行 核查 。 因 此 ， 为 
了 达到 群体 决 集 最 佳 ， 一 方面 要 提高 乔 能 系统 的 置信 度 ， 男 一 方面 要 充 
分 利用 人 类 的 认 知 。 


人 类 和 机 器 的 智能 碰撞 不 仅 提 高 了 个 体 的 智能 ， 同 时 提供 了 洞悉 社 
会 各 种 复杂 性 的 机 会 ， 获 得 人 类 面临 问题 的 最 佳 解决 方案 。 智 能 机 器 利 
用 目 身 计算 速度 快 、 存 储 空间 大 、 学 习 能 力 强 的 特点 来 认识 规律 和 了 解 
必然 性 而 人 可 以 利用 抽象 思维 ， 总 结 、 提 炼 规律 ， 透 过 现象 看 本 质 ， 甚 
至 可 以 通过 比特 币 和 区 块 链 技术 来 占有 资源 和 财产 ， 从 而 建构 智能 机 器 
的 独立 地 位 ， 形 成 具有 法 律 地 位 的 软件 法 人 ， 逐 步 摆脱 物 和 资本 的 控 
制 。 这 不 仅仅 使 每 个 智能 机 器 和 人 得 到 全 面 发 展 ， 也 促使 智能 机 器 与 人 
内 在 差异 的 全 面 进 步 ， 真 正 构 建 人 与 机 需 的 目 由 联合 共同 体 。 人 机 有 效 
的 碰撞 互动 可 以 尽 可 能 地 维持 合作 性 ， 促 使 智能 机 器 与 人 的 差异 互补 ， 
增强 群体 智能 。 


第 八 章 


油 活 数据 学 的 应 用 场景 


数据 量 焊 发 式 地 增长 ， 数 据 维度 越 来 越 丰富 ， 这 些 都 为 人 工 知 能 的 
ss 运算 力 的 提升 大 幅度 推动 人 工 智能 的 

， 深 度 学 习 算 法 在 目 动 驾驶 、 城 市 大 脑 、 医 疗 影像 、 智 能 语 首 等 方 
ee 9 能 的 研究 和 应 用 ， 比 如 已 经 具备 了 感知 
层 的 基础 技术 。 同 时 ， 人 工 智 能 的 成 果 也 反 过 来 让 数据 产生 更 大 的 价 
值 ， 成 为 真正 的 “智能 数据 *， 两 者 相辅相成 、 相 互 促进 ， 让 各 种 数据 应 
用 越 来 越 智 能 化 、 人 性 化 。 未 来 已 来 ， 我 们 正在 到 入 “人 工 乔 能 +” 时 
1 


人 工 智能 时 代 是 一 个 更 加 开放 、 更 加 复杂 的 巨大 系统 ， 可 以 对 不 确 
定性 和 不 可 预知 性 实现 更 加 精准 的 预测 。 激 活 数据 学 以 发 现 块 数据 和 内海 
量 复 杂 数 据 的 潜在 关联 和 预测 未 来 为 目标 ， 以 复杂 理论 的 系统 思想 为 主 
要 范式 ， 探 索 其 理论 基础 和 运行 规律 ， 并 且 洽 试用 量化 手段 进行 模型 构 

建 。 激 活 数据 学 的 基础 是 人 工 知 能 的 飞速 及 展 ， 人 机 交互 推动 高 度数 据 
化 的 智能 与 高 度 智 能 化 的 数据 相互 融合 ， 对 高 度 关 联 的 数据 进行 碰撞 与 
激活 ， 进 而 实现 对 不 确定 性 和 不 可 预知 性 的 精准 把 控 ， 三 推动 人 工 智 能 
的 快速 持续 发 展 。 


1. 大 数据 战略 重点 实验 室 . 块 数据 2.0: 大 数据 时 代 的 范式 革命 LTMj] .北京 : 中 信 出 版 
社 ，2016: 114-128. 


第 一 节 


激活 数据 学 下 的 目 动 驾驶 


(一 ) 智能 区 驶 引领 新 一 轮 工 业 音 命 


伴随 着 新 一 代 信息 技术 的 发 展 ， 汽 车 行业 正在 朝 着 智能 化 方 同 发 
展 ， 智 能 网 联 汽车 已 成 为 未 来 战略 的 制高点 。 搭 载 先进 的 车 载 传感器 、 
控制 器 、 执 行 句 等 装置 ， 并 融合 现代 通信 与 网 络 技 术 ， 推 动 了 汽车 工业 
的 革命 。 与 此 同时 ， 通 过 和 车 与 人 人、 路、 云端 等 智能 信息 交换 、 共 享 ， 具 
备 复杂 环境 感知 、 智 能 决策 、 协 同 控制 等 功能 的 智能 区 驶 技术 开始 广泛 
应 用 ， 使 汽车 要 驶 变 得 更 简单 、 更 安全 。 大 数据 、 互 联网 、 高 精度 地 图 
与 智能 轨 驶 技术 相 结合 ， 共 同 推动 了 无 人 轰 驶 汽车 技术 的 发 展 。 可 以 预 
见 ， 继 车 联网 、 新 能 源 汽车 等 优化 创新 举措 之 后 ， 智 能 轨 驶 技术 必 将 重 
新 规划 、 改 变现 有 的 汽车 产业 格局 ， 带 来 汽车 、 交 通 等 诸多 产业 的 重 
塑 ， 成 为 第 四 次 工业 革命 的 引领 者 。 


无 人 轰 驶 智能 汽车 ， 也 可 以 称 为 “ 轮 式 移动 机 器 人 ”， 主 要 依靠 车 内 
以 计算 机 系统 为 主 的 智能 要 驶 仪 来 实现 目 动 驾驶 。 车 载 传 感 器 负 贡 感知 
车 辆 周围 环境 ， 并 根据 感知 获得 道路 、 和 车辆 位 置 和 障碍 物 信 息 ， 控 制 车 
辆 的 转 癌 和 速度 ， 因 此 车辆 能 够 安全 、 可 靠 地 在 道路 上 行驶 。 三 无 人 区 
驶 汽车 是 集 计算 机 技术 、 模 式 识 别 、 导 航 定位 以 及 智能 控制 等 于 一 体 的 
高 新 技术 发 展 的 产物 。 尽 管 当 前 在 技术 、 法 律 、 伦 理 上 还 存在 诸多 问 
题 ， 但 相信 随 着 人 类 科技 进步 的 突飞猛进 ， 以 及 社会 文明 的 高 度 发 展 ， 
这 些 问 题 都 会 在 不 久 的 将 来 迎刃而解 ， 汽 车 驾驶 员 将 真正 解放 手脚 ， 安 
享 轨 乘 乐趣 。 


从 技术 的 层面 来 看 ， 无 人 要 驶 汽车 的 目 动 驾 驶 系统 主要 包括 环境 感 
知 、 定 位 导航 和 智能 控制 三 大 系统 。 


环境 感知 。 要 实现 真正 的 无 人 驾驶 ， 感 知 技术 的 突破 是 关键 。 与 人 
类 的 眼睛 和 耳 东 等 感知 器 官 相 类 似 ， 无 人 驾驶 汽车 可 以 利用 多 种 传感器 
实现 对 汽车 信息 与 周围 环境 信息 进行 获取 。 无 人 驾驶 汽车 中 主要 应 用 的 
传 感 希 包括 如 下 几 种 。 第 一 ， 摄 像 机 ， 它 是 无 人 罗 驶 汽车 中 的 视觉 传 感 
项 ， 负 责 对 地 面 标识 、 标 线 、 行 人 、 其 他 车 辆 、 红 绿灯 和 车 灯 信 息 等 进 
行 获取 。 第 二 ， 声 音 传感器 ， 无 人 要 驶 汽车 中 应 用 的 声音 传感器 主要 负 
责 对 其 他 车 辆 鸣 合 与 所 需 关 注 声音 做 出 检测 。 第 三 ， 车 辆 状态 传 感 需 ， 
和 本 站 导 11 尼 GD 和 各 和 天 9 他 和 1 1 这 放 < 
的 有 效 信息 。 第 四 ， 和 雷达， 通过 发 出 诸如 激光 束 等 探测 信号 对 周围 环境 
做 出 有 效 的 感知 ， 进 而 对 静止 或 运动 的 物体 进行 相应 的 检测 。 环 境 感知 
系统 相当 于 驾驶 员 的 眼睛 和 耳 朱 ， 是 用 摄像 状 、 超 声波 传感器 、 雷 达 等 
一 系列 部 件 组 成 的 感知 模块 ， 去 感知 周围 环境 。 


定位 导航 。 无 人 驾驶 汽车 中 应 用 的 定位 导航 系统 相当 于 驾驶 员 的 地 
图 ， 主 要 负责 对 目 身 所 处 地 理 位 置 进行 确定 ， 是 无 人 要 驶 汽车 实现 路 径 
规划 与 任务 规划 最 为 重要 的 支撑 。 导 航 定位 技术 主要 有 上 自主 导航 技术 与 
网 络 导航 技术 两 类 。 上 自主 导航 技术 主要 是 指 没有 定位 辅助 功能 ， 无 须 外 
界 提供 协助 便 可 实现 导航 。 自主 导航 技术 是 在 本 地 存储 相应 的 地 理 空 x 间 
信息 ， 全 部 计算 过 程 均 在 终端 完成 ， 在 所 有 情况 中 都 能 有 效 地 进行 定 
位 。 三 但 这 一 技术 存在 的 显著 弊端 是 设备 计算 资源 相对 较 少 ， 致 使 其 计 
算 能 力 不 足 ， 可 能 出 现 定位 不 准 或 者 是 导航 不 及 时 等 问题 。 网 络 导 航 技 
术 能 够 随时 利用 无 线 网 络 与 交通 信息 中 心 开 展 信 息 交 互 ， 移 动 设备 利用 
移动 网 络 实现 和 连接 有 互联 网 的 WebGIS 网络 地 理 信息 系统 ) 服务 器 
进行 信息 交互 ， 利 用 服务 嚣 对 地 图 存储 与 复杂 计算 进行 功能 执行 ， 使 用 
者 能 够 从 服务 器 进行 地 图 数据 方面 的 下 载 ， 网 络 导 航 技 术 具 有 存储 容量 
无 限制 与 计算 能 力 强 等 优势 ， 并 且 地 图 数据 能 够 持续 进行 更 新 。 


智能 控制 。 智 能 控制 系统 相当 于 驾驶 员 的 大 脑 和 手脚 ， 分 析 和 处 理 
收集 来 的 信息 ， 并 发 出 指令 控制 速度 和 方向 ， 正 如 要 驶 员 罗 驶 车 辆 一 
样 ， 找 到 当前 道路 环境 下 的 预 瞄 点 ， 并 加 以 控制 。 目 前 正在 试验 阶段 的 
百度 无 人 驾驶 汽车 就 是 一 台 移 动 的 电脑 ， 拥 有 看 、 听 、 说 、 思 考 、 决 
策 、 行 动 等 能 力 ， 而 这 些 能 力 都 是 百度 多 年 积累 下 来 的 能 力 。 比 如 百度 
的 语音 识别 、 图 像 识 别 、 机 器 学 习 等 技术 优势 ， 全 都 为 无 人 车 提供 了 重 
要 文 撑 。 因 为 车 辆 本 身 具 备 综合 规划 系统 ， 所 以 适当 地 采取 合理 的 防御 
性 驾驶 策略 ， 并 将 经 验 相 对 丰富 的 驾驶 人 员 作 为 最 重要 的 学 习 对 象 ， 通 
过 已 经 确定 的 信息 不 断 修 正 不 确定 的 信息 ， 确 保 无 人 要 驶 汽车 的 智能 决 
朱 和 控制 相对 可 靠 、 安 全 。 依 照 实际 的 道路 状况 分 析 ， 也 可 及 时 地 做 出 
道路 限 速 规划 ， 由 此 提高 行驶 效率 。 另 外 ， 无 人 驾驶 汽车 还 需要 车 联网 
等 系统 的 文 持 ， 以 确保 高 效 、 安 全 运行 。 


(二 ) 激活 数据 学 在 无 人 驾驶 中 的 应 用 场景 


Apollo《〈 阿 波 罗 ) 是 一 个 开放 的 、 完 整 的、 安全 的 平台 ， 其 技术 核 
心 是 “百度 汽车 大 脑 "， 具 有 高 精度 地 图 、 定 位 、 感 知 、 智 能 决策 与 控制 
四 大 功能 模块 。 它 将 帮助 汽车 行业 及 自动 驾驶 领域 的 合作 伙伴 结合 车 辆 
和 硬件 系统 ， 快 速 搭建 一 套 属于 自己 的 自动 驾驶 系统 ， 提 供 包括 “和 车辆 
平台 、 便 件 平台 、 软 件 平台 、 云 端 数据 服务 ”等 在 内 的 完整 软 硬 件 和 服 
务 体系 ， 百 度 还 将 开放 环境 感知 、 路 径 规 划 、 车 辆 控制 、 车 载 操 作 系 统 
等 功能 的 代码 或 能 力 ， 并 且 提 供 完整 的 开发 测试 工具 。 


目前 ， 随 着 无 人 罗 驶 汽车 技术 不 断 进 步 ， 复 杂 情 况 技术 处 理 等 问题 
成 为 制约 其 进一步 发 展 的 瓶颈 。 从 激活 数据 学 理论 看 ， 无 人 四 驶 汽车 系 
统 本 质 上 就 是 一 个 复杂 的 块 数据 系统 ， 包 括 给 定 规 则 ， 通 过 数据 搜索 、 
关联 分 析 、 目 激活 、 热 点 减 量化 、 智 能 碰撞 等 环节 提前 填 入 规则 ， 根 据 
给 定 的 规律 变化 状态 来 解决 问题 ， 相 当 于 具备 人 类 一 定 的 联想 和 演绎 能 
力 。 男 一 方面 ， 基 于 油 活 数据 学 的 复杂 系统 包括 更 多 的 自 壬 系统 和 周边 


系统 ， 能 通过 各 种 智能 设备 界定 安全 区 间 、 辨 别 环境 、 规 划 路 线 、 目 主 
决策 等 反应 ， 让 无 人 驾驶 汽车 技术 更 加 安全 ， 实 现 对 不 确定 性 和 不 可 预 
知性 的 精准 把 控 。 


数据 搜索 ， 精 准 预 控 。 感 知 是 自动 驾驶 工业 当前 的 创新 重点 ， 无 人 
轰 驶 汽车 的 感知 模块 将 多 个 传感器 组 合 在 一 起 ， 通 过 人 工 智 能 技术 ， 每 
一 辆 车 都 能 看 清 、 看 懂 路 况 ， 看 到 每 一 个 行人 、 每 一 个 车 辆 、 每 一 个 障 
碍 物 。 从 激活 数据 学 理论 看 ， 在 数据 搜索 阶段 ， 主 要 是 提高 感知 系统 的 
性 能 ， 以 及 提高 对 不 确定 性 情况 或 因 妹 的 智能 感知 ， 通 过 智能 搜索 感知 
环境 ， 获 取 到 关联 的 数据 ， 并 在 分 析 前 期 关联 的 基础 上 ， 预 见 性 地 进行 
目 主 搜索 ， 为 更 精准 的 预 判 搜集 全 面 的 数据 资源 来 实现 车 道 保 持 所 需 的 
高 精度 定位 ， 进 而 能 实现 多 类 障碍 物 目标 检测 。 


关联 融合 ， 安 全 把 控 。 在 数据 搜索 阶段 获得 物体 信息 后 ， 再 经 过 预 
测 模 块 的 计算 ， 将 生成 预测 轨迹 传递 给 决策 规划 控制 系统 中 的 行为 决 集 
模块 。 关 联 融合 是 激活 数据 学 所 讲 的 预 处 理 阶段 。 其 目的 不 是 将 所 有 数 
气 集 中 在 一 起 ， 而 是 以 产生 多 元 价值 为 目标 将 多 种 数据 源 中 的 相关 数据 
提取 、 融 合 、 杭 理 、 整 合成 一 个 分 析 数 据 集 。 这 个 融合 结果 是 个 独立 和 
灵活 的 实体 ， 可 随 数据 源 的 变化 重组 、 调 整 和 更 新 。 激 活 数据 学 中 的 关 
联 融合 更 强调 系统 和 全 面 ， 根 据 深 层 、 微 观 的 数据 关联 融合 ， 反 馈 作 用 
于 数据 搜索 ， 进 行 相关 数据 资源 的 汇集 整合 ， 为 激活 数据 学 中 的 自 激活 
提供 了 不 断 优 化 的 、 动 态 的 数据 资源 基础 ， 使 用 大 数据 技术 以 及 最 安全 
的 驾驶 策略 ， 可 以 精准 控制 每 一 辆 车 ， 适 合 各 种 不 同 的 路 况 。 


自 激活 ， 实 时 掌控 。 目 前 的 智能 汽车 已 经 具备 领先 的 高 精 地 图 与 传 
感 圳 的 能 力 融 合 ， 能 够 为 每 一 辆 车 提供 低 成 本 、 全 天 候 的 精准 定位 。 同 
时 ， 利 用 深度 神经 网 络 目 主 学 习 的 特性 ， 通 过 高 性 能 将 庞大 复杂 的 神经 
网 络 模型 训练 好 ， 然 后 移植 到 典 入 陈 开 发 平台 ， 从 而 对 图 像 视 频 信息 进 
行 了 实时 高 效 的 处 理 。 改 进 的 深度 学 习 算 法 通过 对 多 摄像 头 信息 融合 处 
理 ， 模 拟人 的 双眼 生成 立体 空间 图 像 ， 从 而 轻松 判断 距离 ， 实 现 更 好 的 


目 动 控制 功能 。 接 下 来 ， 基 于 激活 数据 学 中 的 数据 单元 实现 目 激 活 的 过 
程 ， 将 极 大 地 提高 学 习 效 率 和 预测 能 力 ， 关 似 于 人 类 神经 系统 中 神经 元 
的 活动 情形 ， 让 经 验 变 得 更 可 靠 ， 让 判断 更 准确 ， 让 一 切 都 在 实时 掌握 
hs 


热点 减 量 化 ， 效 用 管控 。 因 为 车 辆 本 身 具 备 综合 规划 系统 的 特性 ， 
所 以 适当 地 采取 合理 的 防御 性 要 驶 策略 ， 运 用 经 验 相 对 丰富 的 区 驶 人 员 
作为 最 重要 的 学 习 对 象 ， 才 能 确保 无 人 罗 驶 汽车 的 智能 决策 和 控制 相对 
可 靠 、 安 全 。 在 激活 数据 学 的 热点 减 量化 阶段 ， 通 过 降低 数据 噪声 ， 排 
除 不 准确 、 失 去 时 效 性 、 关 联 度 不 高 的 策略 ， 保 证 最 终 数据 处 理 的 分 析 
结 末 更 加 准确 。 采 取 减 量化 的 数据 分 析 路 径 ， 还 能 在 有 限 成 本 约束 的 条 
件 下 实现 数据 价值 挖掘 的 最 大 化 ， 依 照 实际 的 道路 状况 分 机 ， 也 可 及 时 
地 做 出 道路 限 速 规划 ， 由 此 提高 行驶 效率 。 决 策 规划 模块 根据 实时 路 
况 、 感 知 模块 输出 、 道 路 限 速 等 信息 做 出 相应 的 轨迹 预测 和 智能 规划 ， 
将 同时 兼顾 安全 性 和 舒适 性 ， 进 一 步 提 高 行驶 效率 。 


智能 碰撞 ， 系 统 联 控 。 通 过 百度 的 DuerOS 〈 对 话 式 人 工 智能 系 
统 ) 平台 ， 分 析 一 些 联网 的 汽车 ， 可 以 更 好 地 实现 全 语音 交互 智能 ， 目 
的 就 是 为 更 多 的 用 户 提 供 最 实际 的 帮助 ， 满 足 生活 需求 ， 比 如 地 图 的 导 
航 功 能 、 智 能 问答 及 个 性 化 的 音频 内 容 等 ， 都 可 以 凭借 开放 平台 的 优 
势 ， 提 高 车 场景 的 多 维度 能 力 。 这 也 正 是 激活 数据 学 中 智能 碰撞 所 强调 
的 “唤醒 万 物 ” 的 理论 基础 。 感 知 模块 所 输出 的 物体 信息 包括 位 置 、 速 
度 、 于 癌 以 及 物体 分 类 〈 如 汽车 、 行 人 、 目 行车 ) 等 物理 属性 ， 加 上 考 
克 风 陈列 、 回 声 消除 、 语 音 唤醒 、 远 场 识 别 等 智能 技术 ， 并 将 这 些 植 入 
家 许 场 景 、 移 动 场 景 、 车 载 场 景 三 位 一 体 的 智能 人 硅 撞 系统 中 ， 输 出 的 各 
类 主体 参与 智能 倍 撞 ， 同 时 结合 物体 和 周边 环境 信息 ， 以 及 积累 的 历史 
数据 知识 和 智慧 数据 ， 实 现 对 感知 到 的 物体 做 出 更 为 宏观 、 精 准 的 行为 
预测 。 


(三 ) 激活 数据 学 为 智能 驾驶 提供 理论 依据 

汽车 轨迹 规划 及 智能 决策 是 实现 汽车 智能 化 的 关键 技术 之 一 ， 激 活 
数据 学 下 的 智能 驾驶 路 径 选择 是 以 激活 数据 学 为 理念 支撑 和 技术 支撑 
的 ， 促 进 智能 驾驶 有 效 解决 轨迹 选择 、 精 准 定位 、 智 能 控制 等 的 相关 问 
题 ， 智 能 化 连接 车 与 车 、 人 与 人 、 人 与 社会 ， 真 正 实现 汽车 能 和 人 一 样 
会 思考 、 判 断 、 行 走 ， 探 索 出 符合 智能 驾驶 需求 的 新 路 径 。 


激活 数据 学 构建 的 人 机 交互 模式 。 交 互 方式 主要 是 指 用 户 、 产 品 和 
环境 之 间 的 信息 交流 的 形式 ， 经 历 了 从 原始 式 交 互 、 适 应 式 交 互 到 符合 
人 们 认 知 习惯 的 自然 式 交 互 的 过 程 。 三 目前 人 机 交互 的 主要 方式 是 人 下 
达 命 令 ， 由 机 器 去 执行 ， 在 这 个 过 程 中 ， 人 的 命令 不 能 有 失误 ， 否 则 就 
无 法 实现 正确 的 操作 ， 这 会 导致 安全 隐患 和 糟糕 体验 。 例 如 ， 强 光 强 
照 、 积 雪 雾 多 等 恶劣 行驶 环境 会 对 环境 感知 系统 市 来 影响 ， 因 为 智能 汽 
车 在 一 些 物体 识别 〈 水 洼 和 深 坑 ) 、 感 知 复杂 的 人 类 手势 信号 等 方面 与 
人 类 仍 有 差距 。 语音 交互 在 实际 的 运用 过 程 中 其 实 并 不 是 很 成 熟 ， 手 势 
交互 现 阶段 只 能 完成 一 些 简单 的 交互 。 因 此 ， 传 统 汽 车 向 无 人 驾驶 汽车 
的 过 渡 仍 然 还 有 很 长 的 路 要 走 。 


油 活 数据 学 以 及 现 块 数据 内 海量 复杂 数据 的 潜在 关联 和 预测 未 来 为 
目标 ， 以 复杂 理论 的 系统 思想 为 主要 范式 。 三 在 基于 激活 数据 学 的 应 用 
场景 下 ， 未 来 自然 的 人 机 交互 应 是 以 情景 识别 为 主 ， 即 智能 机 器 通过 环 
境 来 预知 人 的 需求 。 未 来 汽车 的 人 机 交互 系统 拥有 更 安全 、 更 稳定 的 技 
术 ， 满 足 更 乔 能 、 更 人 性 化 的 需求 ， 都 是 以 集合 汽车 、 人 工 智 能 、 心 理 
学 等 不 同 领域 的 知识 来 完成 这 一 复杂 系统 的 。 此 外 ， 激 活 数据 学 的 算法 
模型 可 通过 深度 学 习 的 视觉 算法 提升 感知 能 力 ， 相 比 传统 的 视觉 算法 ， 
它 能 从 不 同 距离 、 不 同 角度 进行 识别 ， 既 可 以 识别 奇形怪状 的 车 辆 ， 也 
可 以 识别 被 遮挡 的 车 辆 。 


激活 数据 学 连接 的 全 方位 车 联网 。 无 人 区 驶 汽车 的 技术 原理 主要 是 


通过 车 载 传感器 来 感知 车 辆 周转 环境， 并 根据 感知 所 获得 的 道路 、 和 车辆 
位 置 和 障碍 物 等 一 系列 信息 ， 控 制 车 辆 的 转向 和 速度 ， 因 此 涉及 多 种 最 
新 的 电子 和 机 械 技术 ， 包 括 目 动 控制 、 人 工 智 能 、 视 觉 计算 等 。 随 着 计 
算 机 科学 技术 、 无 线 通 信 技 术 以 及 交通 运输 业 的 高 速 发 展 ， 车 辆 导航 系 
统 的 动态 路 径 规划 研 完 趋 势 还 将 同 多 导航 需 相 互 协 调 规划 的 方 癌 发 展 。 
现在 的 车 辆 导航 都 是 以 单个 车 辆 为 对 象 进 行路 径 引 导 ， 没 有 考虑 到 总 体 
的 大 局 协调 ， 这 样 容易 引起 新 的 交通 拥堵 等 问题 ， 所 以 多 导航 器 协调 规 
划 将 是 一 种 更 加 符合 实际 需求 的 规划 方法 。 


基于 激活 数据 学 应 用 下 的 智能 系统 是 一 个 全 方位 的 车 联网 系统 ， 实 
现 车 内 、 车 与 车 、 车 与 路 、 车 与 人 、 车 与 服务 平台 的 全 方位 网 络 连接 ， 
有 助 于 实现 智能 交通 ， 从 根本 解决 交通 安全 难题 。 首 先 ， 一 旦 要 驶 员 出 
现 超 速 、 疲 荔 要 驶 、 不 按 规定 线路 行驶 等 违章 行为 ， 车 载 终端 将 目 动 报 
警 警 示 驾 驶 员 。 其 次 ， 绥 解 交通 拥堵 。 在 智能 交通 体系 内 行驶 ， 可 提高 
城市 道路 的 通行 能 力 ， 减 轻 交 通 拥挤 ， 减 少 停车 次 数 和 行车 时 间 。 因 
此 ， 使 用 智能 系统 可 以 提升 汽车 智能 化 水 平和 自动 驾驶 能 力 ， 构 建 汽车 
和 交通 服 务 新 业态 ， 提 高 交通 效率 ， 改 善 汽 车 驾 乘 感受 ， 为 用 户 提 供 镶 
能 、 和 舒适 、 安 全 、 节 能 、 癌 效 的 综合 服务 。 


激活 数据 学 实现 的 精准 预测 反馈 。 智 能 汽车 根据 传感器 输入 的 各 种 
参数 生成 期 望 的 路 径 ， 并 将 相应 的 控制 量 提供 给 后 续 的 控制 器 。 所 以 决 
傈 规划 是 一 项 重要 的 研究 内 容 ， 决 定 了 车 辆 在 行驶 过 程 中 车 辆 能 耕 顺 
畅 、 准 确 地 完成 各 种 驾驶 行为 。 决 俩 规划 是 上 自动 驾驶 的 关键 部 分 之 一 ， 
决策 规划 按照 划分 的 层面 不 同 可 分 为 全 局 规划 和 局 部 规划 。 全 局 规划 是 
由 获取 到 的 地 图 信息 ， 规 划 出 一 条 在 一 些 特定 条 件 下 的 无 磁 揪 最 优 路 
径 。 局 部 规划 则 是 根据 全 局 规划 ， 在 一 些 局 部 环境 信息 基础 上 ， 避 人 免 撞 
上 未 知 的 障碍 物 ， 最 终 到 达 目 标点 的 过 程 。 基 于 定位 信息 、 感 知 模块 提 
供 的 障碍 物 信 息 、 对 障碍 物 运动 的 预测 ， 并 根据 当前 车 辆 的 状态 同时 考 
虑 安全 与 舒适 上 度 ， 计 算 车 辆 运行 的 路 径 。 


基于 块 数据 理论 模型 下 ， 激 活 数据 学 是 动态 的 ， 它 处 于 不 断 发 展 进 
化 之 中 ， 而 且 对 未 来 的 变化 具有 预测 能 力 ， 并 迎合 未 来 的 变化 。 首 先 ， 
将 多 个 传感器 的 答 出 数据 统一 在 车 辆 坐标 系 下 ， 建立 具有 时 间 标 记 的 数 
据 融 合 和 关联 分 析 ， 以 保证 场景 数据 信息 的 连贯 性 和 适用 性 。 
接收 到 智能 传 感 占 感知 融合 信息 后 ， 委 智能 算法 开始 学 习 外 界 场景 信 言 乱 ， 
从 全 局 的 角度 规划 具体 行驶 任务 ， 实 现 乔 能 车 辆 拟人 化 控制 融入 整个 交 
通 流 。 最 后 ， 根 据 局 部 环境 信息 、 上 层 决 俩 任务 和 车 映 实时 位 置 数据 信 
恩 ， 在 满足 一 定 的 运动 学 约束 下 ， 为 提升 智能 汽车 安全 、 局 效 和 舒适 性 
能 ， 规 划 决 断 出 局 部 空间 和 时 间 内 容 ， 也 就 是 车 辆 期 望 最 优 的 运动 轨 
迹 ， 包 括 行驶 轨迹 、 速 度 、 方 辐 、 状 态 等 决策 反馈 ， 进 而 实现 对 不 确定 
性 和 不 可 预知 性 的 精准 把 控 。 
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we 


i 
油 活 数据 学 下 的 城市 大 脑 


(一 ) 城市 大 脑 : 城市 的 数据 釉 能 中 枢 


城市 是 人 类 的 伟大 创造 ， 但 由 于 人 口 、 工 业 、 区 通 运输 过 度 集中 而 
造成 的 城市 病 正 四 处 台 延 。 在 《智慧 地 球 : 下 一 代 的 领导 议程 》 
中 , “智慧 地 球 ” 的 理念 被 明确 地 提出 来 ， 其 目标 是 让 社会 更 智 意 地 发 
展 ， 让 人 类 更 乔 惑 地 生存 ， 让 地 球 更 智 芒 地 运转 。 在 此 基础 上 ， 智 莫 城 
市 这 一 概念 孕育 而 生 ， 成 为 中 国 城市 建设 的 目标 并 得 到 大 力 推进 。 在 知 
苇 城 市 的 发 展 上 ， 依 托 云 计算 、 大 数据 、 移 动 互 联网 、 电 黄平 台 方面 的 
先进 技术 ， 建 立 横 癌 平台 ， 把 纵向 交通 、 医 疗 政务 等 数据 整合 到 一 个 平 
台 上 ， 开 展 更 深层 次 的 智 意 城市 运营 铜 察 。 智 慧 城市 的 建设 需求 在 不 断 
著 生 智能 化 、 信 息 化 技术 的 升级 章 新 。 


城市 是 数据 密集 型 场景 ， 整 个 城市 拥有 庞大 的 驱 体 ， 但 还 缺乏 统一 
指挥 的 大 脑 。 重 意 城 市 只 做 了 城市 的 手 和 脚 ， 所 有 的 决策 还 是 依赖 人 ， 
缺乏 上 自主 控制 。 城 市 大 脑 要 做 的 是 给 城市 配置 一 个 高 智商 、 能 决策 的 镶 
能 中 枢 ， 去 提升 手脚 和 乳 体 的 效 京 。 城 市 大 脑 和 智 苇 城市 的 边界 ， 就 在 
于 对 数据 的 运用 。 知 意 城 市 的 基础 在 于 利用 监控 摄像 头 ， 是 用 硬件 基础 
设施 来 搜集 数据 的 ， 而 城市 大 脑 则 是 利用 数据 创造 新 价值 。 


在 2016 杭 州 云 栖 大 会 上 ， 杭 州 市 政府 公布 了 一 项 “ 疡 狂 ?的 计划 : 
为 这 座 城市 安装 一 个 人 工 智 能 中 枢 一 一 杭州 城市 数据 大 脑 。 杭 州 城市 数 
据 大 脑 是 这 座 城 市 的 人 工 智 能 中 酌 。 城 市 大 脑 的 内 核 采 用 阿里 云 ET 人 
工 智 能 技术 ， 可 以 对 整个 城市 进行 全 局 实时 分 析 ， 目 动 调配 公共 资源 ， 


修正 城市 运行 中 的 bug《〈 故 障 ) ， 最 终 进 化 成 为 能 够 治理 城市 的 超级 人 


国内 城市 使 用 的 SCATS 信 号 灯 控 制 系统 是 由 国外 引进 ， 并 不 适合 
国 的 “混合 型 ?交通 现状 。 尤 其 是 当 城 市 建设 导致 线圈 采集 设备 大 面积 损 
坏 时 ， 这 相当 于 SCATS 系 统 的 “眼睛 ?被 杜 表 了 ， 控 制 信号 灯 的 效果 比 理 
论 预 期 差 很 多 ， 且 无 法 实现 基于 全 局 的 决策 判断 。 城 市 大 脑 引 入 了 地 图 
数据 、 摄 像 尖 数据 等 ， 相 当 于 城市 大 脑 具 备 了 “天 上限?”， 能 够 从 城市 上 空 
俯 虞 全 局 。 同 时 ， 城 市 大 脑 采 用 了 阿里 云 自 主 研发 的 网 络 流 控 制 理论 ， 
可 以 实现 对 网 络 阻塞 点 的 全 面 量化 。 


数据 与 智能 将 成 为 未 来 的 趋势 。 对 于 城市 而 言 ， 城 市 大 脑 可 以 将 散 
落 在 各 个 角落 的 数据 汇聚 到 一 起 ， 使 用 云 计 算 大 数据 和 人 工 智 能 扩 术 ， 
让 城市 的 各 个 “器 官 * 协 同 工 作 ， 变 成 一 个 能 够 目 我 调节 、 与 人 类 民 性 互 
动 的 有 机 体 。 三 


(二 ) 激活 数据 学 优化 城市 大 脑 的 系统 应 用 


当下 城市 的 自我 思考 能 力 有 所 欠缺 ， 资 源 价 值 没有 被 完全 释放 出 
来 ， 很 多 都 沉睡 在 数据 中 心 的 硬盘 上 ， 成 为 库存 、 成 本 。 只 有 释放 出 
来 ， 流 动 的 数据 才 会 产生 价值 。 一 个 城市 的 智慧 程度 ， 取 诀 于 这 个 城市 
大 脑 的 中 枢 神 经 上 的 信息 流通 ， 如 今 的 传感器 网 络 ，5G 时 代 的 到 来 都 
能 够 很 好 承载 信息 流通 。 数 据 的 融会 员 通 取决 于 在 线 计算 的 能 力 ， 所 以 
要 选择 城市 的 场景 ， 利 用 城市 大 脑 来 梳理 智 臣 城 市 。 


实现 城市 大 脑 ， 要 解决 几 个 层面 的 问题 。 首 先 ， 是 数据 集中 的 问 
题 。 要 做 到 数据 集中 ， 各 个 系统 要 有 相对 应 的 数据 ， 如 公交 有 公交 系统 
的 数据 ， 公 安 有 公安 系统 的 数据 ， 而 城市 大 脑 第 一 步 要 做 的 是 把 所 有 的 
数据 堆放 在 一 起 。 其 次 ， 是 建 模 的 问题 。 有 了 数据 ， 还 需要 把 这 些 数据 


建 模 ， 有 了 模型 ， 后 续 数 据 处 理 才 能 得 到 有 效 解决 。 最 后 ， 是 数据 优化 
和 机 器 学 习 的 问题 。 通 过 数据 化 和 机 器 学 习 ， 成 为 交通 指 挥 官 。 城 市 大 
脑 由 五 大 系统 组 成 一 一 超大 规模 计算 平台 、 数 据 采 集 系统 、 数 据 交 换 中 
心 、 开 放 算 法 平台 、 数 据 应 用 平台 。 基 于 激活 数据 学 下 的 城市 大 脑 系统 
能 够 有 效 解决 以 上 几 个 问题 。 


优化 超大 规模 计算 平台 。 城 市 大 脑 涉及 的 数据 量 巨大 ， 如 此 庞大 的 
数据 量 面临 的 挑战 也 随 之 增加 。 激 活 数据 学 下 的 超大 规模 计算 平台 是 其 
他 几 个 系统 的 运行 载体 ， 并 处 于 同一 个 内 部 循环 的 状态 。 结 合 激 活 数 据 
学 ， 超 大 规模 计算 平台 首先 将 主动 搜索 城市 各 个 系统 的 数据 并 不 断 进行 
深度 学 习 ， 然 后 探索 城市 各 系统 之 间 数 据 的 关联 性 ， 进 行 天 联 性 分 析 。 
再 通过 多 智能 体 技术 对 城市 数据 系统 中 出 现 的 复杂 性 问题 进行 建 模 ， 目 
主 的 深化 学 习 并 模拟 人 类 做 决策 ， 从 而 乌 选 出 对 于 城市 问题 解决 最 有 价 
值 的 数据 。 让 人 与 机 器 的 群体 智能 共同 协作 以 保证 大 脑 能 够 真正 实现 眼 
疾 手 快 、 当 机 立 断 。 


优化 数据 采集 系统 。 数 据 质 量 是 大 数据 面临 的 一 大 挑战 。 如 何 从 杂 
乱 的 数据 中 提取 准确 无 误 的 关键 信息 ， 古 数据 集聚 中 最 难 解决 的 问题 之 
一 。 激 活 数据 学 下 的 数据 采集 系统 犹如 人 的 “末梢 神经 ?和 “小脑 ”《〈 执 行 
层 ) ， 源 源 不 断 地 同城 市 大 脑 输送 数据 。 告 别 于 传统 的 机 械 式 搜索 ， 它 
具备 高 度 的 调 罕 感知 力 ， 快 速 实 现 精准 匹配 。 搜 索 范 围 更 全 面 ， 效 用 更 
高 。 在 海量 的 城市 数据 中 ， 进 行 最 有 效 的 关联 分 析 ， 运 用 最 有 价值 的 数 
据 。 


当 解 决 城市 拥堵 时， 基于 计算 机 视觉 仿真 、 雷 达 测 速 、 知 能 图 像 分 
析 和 快速 检索 等 技术 ， 它 将 整合 道路 监测 设施 和 信息 获取 终端 ， 实 时 动 
态 监 测 和 收集 车 流量 、 客 流量 信息 ， 结 合 各 种 道路 监控 设施 及 交警 指挥 
控制 系统 数据 进行 智能 搜索 ， 并 不 断 互 补 、 修 正 ， 进 而 获得 范围 更 广 、 
精度 更 高 、 可 靠 性 更 强 的 交通 信息 ， 为 决策 系统 及 时 掌握 道路 交通 状态 
并 做 出 决 集 提供 效用 最 大 化 的 数据 价值 。 


优化 数据 交换 中 心 。 随 着 城市 数据 规模 呈 爆 发 式 增 长 ， 越 来 越 多 的 
数据 融 来 了 大 量 的 应 用 价值 和 商机 ， 但 是 数据 量 的 高 速 膨胀 、 数 据 无 意 
义 的 元 余 、 数 据 原 有 关联 的 割裂 又 对 信息 的 充分 利用 形成 严重 制约 ， 同 
时 不 同 的 数据 可 能 关于 某 一 时 间 、 空 间 、 人 物 、 事 件 或 者 对 象 是 相互 关 
联 的 ， 现 有 的 数据 组 织 和 处 理 并 未 充分 体现 这 些 关 联 性 ， 而 这 些 关 联 性 
往往 对 解决 城市 的 管理 与 服务 问题 具有 重要 价值 。 


激活 数据 学 下 的 数据 交换 中 心 ， 狐 如 人 类 整个 大 脑 的 “ 脑 核 ”〈 基 础 
层 ) ， 从 交叉 需求 导 癌 出 发 ， 通 过 政府 数据 、 互 联网 和 社会 数据 的 全 面 
融合 ， 提 高 数据 的 多 维 性 和 多 样 性 ， 然 后 探索 城市 各 系统 数据 之 间 的 内 
在 关联 性 。 如 在 城市 治 堵 中 ， 对 不 同 来 源 的 交通 数据 进行 数据 精练 、 融 
合 重 构 ， 从 而 对 三 元 空间 数据 进行 关联 表达 ， 让 其 在 复杂 的 城市 交通 数 
据 中 ， 更 清晰 地 构建 车 辆 与 人 流 之 间 ， 和 车 辆 与 车 辆 之 间 ， 车 辆 与 道路 监 
控 系 统 之 间 的 相互 联系 ， 刻 画 整 个 交通 状况 的 全 貌 ， 为 整个 城市 交通 数 
据 之 间 的 深度 融合 建立 一 个 通道 。 假 如 发 现 诸如 路 网 等 设置 不 够 合理 的 
问题 ， 残 可 快速 在 规划 环节 进行 全 面 优化 调整 ， 趋 近 科 学 理想 化 ， 从 而 
有 效 解决 传统 调研 中 无 法 掌握 足够 样本 量 、 无 法 将 跨 界 大 数据 整合 分 
析 、 无 法 量化 计算 、 无 法 呈现 和 分 析 规 划 后 的 可 能 场景 等 问题 。 


优化 开放 算法 平台 。 城 市 数据 的 价值 激活 需要 开放 算法 平台 作为 重 
要 文 撑 。 激 活 数 据 学 下 的 开放 算法 平台 就 像 是 人 大 脑 的 “皮质 层 ”( 决 策 
层 ) ， 在 这 个 决策 层 中 有 多 个 智能 体 ， 这 些 智能 体能 够 通过 学 习 来 “ 激 
活 ” 个 体 智能 ， 采 用 深度 学 习 的 方法 模拟 人 类 做 决策 。 与 此 同时 ， 它 会 
向 生命 体 、 活 系统 进化 ， 能 够 自生 长 、 自 成 长 、 自 修复 。 


结合 激活 数据 学 的 运行 原理 ， 开 放 算 法 平台 通过 各 种 信息 收集 途 
径 ， 如 在 城市 交通 数据 系统 中 的 车 管 数 据 、 罗 管 数据 、 车 辆 实时 卡 口 数 
据 、 道 路 状况 数据 、 道 路 拥堵 情况 数据 等 ， 利 用 多 智能 体 技术 构建 复杂 
目 组 织 系统 来 模拟 智能 产生 的 过 程 ， 构 建 出 算法 模型 ， 再 通过 机 器 学 习 
反复 优化 和 迭代 ， 回 交通 管理 者 提出 更 好 的 建议 。 


优化 数据 应 用 平台 。 在 对 数据 进行 分 析 决 俩 后 还 有 一 个 重要 步 又 就 
是 “ 油 活 ”， 主 要 是 把 “大 脑 * 的 决策 输出 到 城市 管理 和 城市 服务 的 各 个 场 
景 。 在 激活 数据 学 下 ， 城 市 大 脑 将 帮助 静态 的 城市 管理 体系 同 动 态 的 生 
态 系统 转型 。 在 多 层次 的 筛选 机 制 上 ， 平 台 会 将 有 限 的 计算 和 存储 资源 
分 配给 最 有 具 价 值 的 城市 数据 单元 。 在 此 基础 上 ， 依 据 激 活 数据 学 所 能 模 
拟 的 智能 群体 ， 在 智能 碰撞 阶段 将 最 优 结果 匹配 输送 到 相对 应 的 各 个 场 
景 之 中 。 比 如 对 每 个 路 口红 绿灯 的 时 间 设 置 ， 要 优化 出 最 佳 通行 效率 ; 
对 交通 卡 口 的 监控 实施 调配 ， 保 障 有 效 运 转 ; 对 公交 车 辆 和 线路 进行 合 
理 调度 ， 甚 至 对 于 道路 施工 维修 进行 民 好 规划 等 情况 ， 平 台 会 乔 能 识别 
需求 ， 第 选 出 最 有 价值 的 数据 并 通过 智能 群体 做 出 最 优 决 全 方案 输送 到 
各 个 需求 系统 。 感 知 是 数字 城市 的 功能 ， 控 制 和 智能 服务 是 乔 意 的 高 级 
阶段 ， 激 活 数据 学 将 数据 的 最 大 价值 汇流 到 城市 发 展 中 。 


(三 ) 激活 数据 学 让 城市 大 脑 更 智 臣 


城市 大 脑 目 前 主要 体现 在 交通 安全 领域 ， 而 随 独 城市 中 各 种 各 样 的 
数据 开始 汇聚 到 城市 大 脑 里 面 ， 诺 如 生态 环境 、 工 业 生 产 、 卫 生 健 康 、 
服务 业 等 都 会 成 为 其 中 一 部 分 ， 这 对 城市 大 脑 的 能 力 又 会 提出 更 多 的 要 
求 。 在 城市 大 脑 项 目 中 ， 数 以 百 亿 计 的 城市 交通 管理 数据 、 公 共 服 务 数 
据 、 运 营 商 数据 、 互 联网 数据 被 集中 输入 ， 这 些 数据 成 为 城市 大 脑 智 惹 
的 起 源 。 在 激活 数据 学 下 ， 这 些 数据 将 能 发 挥 最 大 效用 提供 精准 化 的 城 
市 服务 ， 构 建 全 域 的 城市 治理 新 模式 以 及 人 机 共 治 的 智能 社会 。 


构建 全 域 的 城市 治理 新 模式 。 作 为 “最 强 有 力 的 创新 加 速 嚣 *， 人 工 
智能 技术 必 将 得 到 更 大 发 展 。 激 活 数据 学 结合 城市 大 脑 将 会 在 城市 治理 
的 各 个 领域 发 挥 效 用 ， 如 智慧 治 堵 、 智 慧 旅游 、 智 慧 气象 等 方面 。 交 通 
拥堵 ， 只 是 城市 大 脑 迎战 的 第 一 个 难题 。 在 智慧 治 壤 方 面 ， 城 市 大 脑 结 
合 整 个 城市 数据 ， 把 脉 整个 城市 的 交通 情况 ， 对 症 下 药 ， 并 能 融合 多 方 
系统 为 城市 的 整体 出 行情 况 进行 把 控 。 例 如 在 旅游 方面 ， 城 市 大 脑 可 以 


将 城市 中 每 年 接待 的 游客 真正 变 成 “用户 ”， 当 游客 刚 踏 上 当地 城市 的 那 
一 刻 ， 城 市 大 脑 便 可 以 为 其 提供 个 性 化 的 服务 。 在 智 意气 象 方面 ， 城 市 
大 脑 还 可 以 对 水 库 、 河 道 、 泵 闸 等 进行 大 数据 采集 、 分 析 ， 绽 合 天 气 数 
据 ， 提 前 预测 汛情 和 城市 内 沪 。 城 市 大 脑 结合 油 活 数据 学 的 应 用 ， 让 数 
所 帮助 城市 来 做 患 考 和 决策 ， 将 每 座 城 市 都 打造 成 一 座 能 够 日 我 调 市 、 
与 人 类 良性 互动 的 城市 。 


构建 人 机 共 治 的 智能 社会 。 社 会 数据 化 ， 数 据 社 会 化 。 束 数据 的 本 
性 而 言 ， 它 对 所 有 人 都 是 平等 的 。 激 活 数 据 学 将 数据 这 种 平等 价值 效用 
发 挥 到 最 大 ， 让 每 个 数据 都 能 创造 出 目 身 价值 并 且 还 能 有 效 利 用 。 当 城 
市 大 脑 得 普 于 这 些 价值 时 ， 城 市 大 脑 才 被 真正 赋值 。 在 激活 数据 中 的 知 
能 碰撞 阶段 ， 人 类 与 机 器 协同 强化 涌现 出 的 群体 智能 将 超越 个 体 智力 ， 
从 而 高 效 地 解决 复杂 问题 。 面 对 社会 发 展 的 多 元 需求 ， 人 与 机 器 相伴 相 
行 共同 治理 ， 创 造 出 和 谐 生 态 的 社会 ， 这 才 是 数据 智能 的 真正 价值 。 


1. 孙 封 蓄 . 阿 里 云 的 “城市 数据 大 脑 *， 比 智慧 城市 高 深 多 了 [EB/OL ] . (2016-10- 
13) .http:/www.sohu.com/a/116071278_114765. 


和 A 一 十 于 


下 二 人 
激活 数据 学 下 的 医疗 影像 


(一 ) 人 工 智能 赋 能 医疗 影像 


借助 互联 网 的 连接 ， 近 年 来 就 医 效 率 和 体验 得 到 了 极 大 提升 ， 但 医 
疗 的 最 大 痛 点 一 一 资源 不 均衡 的 矛盾 并 没有 得 到 根本 性 的 解决 。 医 疗 是 
一 个 数据 密集 型 、 脑 力 劳 动 密集 型 、 知 识 密集 型 的 行业 ， 需 要 依赖 强大 
的 知识 储备 和 处 理 分 析 能 力 进行 判断 、 诊 疗 。 同 时 失误 “ 零 容 妨 ” 使 得 医 
疗 领 域 从 基础 层 药物 研发 、 检 测 ， 到 应 用 层 预 防 、 诊 断 、 治 疗 、 康 复 、 
健康 管理 等 各 环节 都 面临 严格 的 质量 和 监管 要 求 。 


技术 的 发 展 大 幅 提高 了 医疗 数据 处 理 效 率 和 洞察 深度 ， 如 IBM“ 沃 
森 ” 阅 读 10.6 万 份 临 床 报 告 仅 需 17 秒 。 借 助 深度 学 习 、 自 学 习 、 自 分 析 、 
自 判 断 以 及 不 知 疲倦 等 优势 ， 人 工 智能 可 将 医疗 失误 降低 30%0~40%。 
基于 人 工 智 能 的 技术 优势 和 应 用 ， 其 赋 能 医疗 行业 的 价值 将 是 不 可 估量 
的 。 医 疗 与 人 工 乔 能 的 结合 ， 正 在 成 为 新 的 爆发 点 。 


目前 ， 人 工 智 能 对 肺病 、 骨 癌 、 甲 状 腺 癌变 、 乳 脲 癌 、 皮 肤 病 等 多 
个 病 种 的 医学 图 像 检 测 效 率 和 识别 精度 都 可 以 达到 甚至 超越 专业 医生 水 
平 。 除 此 之 外 ， 人 工 智 能 可 以 大 幅 提高 读 片 效率 ， 以 及 减少 人 为 失误 。 
以 肺病 为 例 ， 针 对 平均 超过 200 层 的 肺 部 CT《〈 电 子 计算 机 断层 扫描 ) 扫 
描 图 片 ， 医 生 人 工 乌 碍 需要 20 分 钟 甚至 更 长 ， 而 人 工 智能 仅 需 数 十 秒 。 


现代 医学 是 建立 在 实验 基础 上 的 循 证 医学 ， 医 生 的 诊疗 结论 必须 建 
立 在 相应 的 诊断 数据 上 ， 影 像 是 重要 的 诊断 依据 ， 医 疗 行业 80%~90% 


的 数据 都 来 源 于 医学 影像 。 所 以 临床 医生 有 极 强 的 影像 需求 ， 他 们 需要 
对 医学 影像 进行 各 种 各 样 的 定量 分 析 、 历 史 比 较 ， 从 而 完成 一 次 诊断 。 
医疗 信息 化 正 步 入 融合 创新 阶段 ， 即 集成 和 融合 人 工 知 能、 机 右 人 、 虚 
拟 现实 /增强 现实 等 技术 打造 面 癌 可 预 汕 、 可 预防 以 及 精准 医疗 的 健康 
解决 方案 。 其 中 ， 人 工 智能 被 寄予 厚望 ， 有 着 广泛 的 应 用 场景 。 作 为 三 
大 治疗 手段 之 一 ， 医 学 影像 的 精准 识别 对 医生 决策 至 关 重 要 。 总 症 、 心 
脏 疾 病 等 许多 重大 疾病 都 可 以 在 早期 通过 医学 影像 设备 识别 出 来 。 


在 “人 工 智能 + 医疗 影像 "领域 ， 腾 讯 打 造 的 首 个 应 用 在 医学 领域 的 
人 工 智 能 产品 一 一 腾讯 如 影 ， 吏 是 具体 体现 。“ 腾 讯 克 影 ?聚合 了 腾讯 公 
司 内 部 包括 人 工 智能 实验 室 、 优 图 实验 室 、 架 构 平 台 部 等 多 个 顶尖 人 工 
智能 团队 的 能 力 ， 把 图 像 识 别 、 大 数据 处 理 、 深 度 学 习 等 领先 的 技术 与 
医学 跨 界 融合 研发 而 成 。 通 过 与 国内 十 多 家 三 甲 医院 建 立 人 工 智能 医学 
联合 实验 室 , “腾讯 如 影 " 已 经 进入 大 规模 的 临床 预 试验 ， 并 且 显 示 出 人 
工 智 能 对 医疗 行业 的 “ 赋 能 ”效果 一 一 通过 “腾讯 中影 ”， 一 个 食管 交 内 镜 
检查 诊断 用 时 不 到 4 秒 ， 能 辅助 医生 大 大 提升 对 早期 食管 癌 的 检 出 率 。 


“腾讯 喝 影 ”以 开放 平台 的 角色 ， 成 为 各 家 医院 以 及 医疗 系统 服务 商 
的 基础 文 撑 。 通 过 这 个 平台 ， 各 地 的 医院 可 以 获得 顶尖 医疗 机 构 的 医疗 
能 力 ， 尤 其 是 重大 疾病 和 疑难 杂 症 的 诊断 和 治疗 能 力 。 腾 讯 的 人 工 智 能 
医疗 影像 平台 “腾讯 而 影 "， 具 备 人 工 智能 + 医疗 的 创新 先进 性 ， 以 及 推 
动 整个 人 工 智 能 + 医疗 生态 圈 发 展 的 开放 能 


(二 ) 油 活 数据 学 在 医疗 影像 中 的 应 用 末 略 


全 世界 在 人 工 智能 医学 影像 上 还 没有 突破 瓶颈 ， 这 在 于 从 数据 的 获 
取 端 出 发 ， 我 国 的 医学 影像 还 处 于 从 传统 胶片 回电 子 数 据 过 渡 的 阶段 ， 
大 量 的 影像 资料 还 没有 实现 电子 化 和 数据 化 。 再 加 上 数据 源头 多 、 类 型 
多 、 结 构 复 杂 、 标 准 不 统一 等 特征 ， 导 致 要 获得 真正 高 质量 的 有 效 数 


据 ， 需 要 花费 高 昂 的 成 本 ， 这 是 一 个 巨大 的 成 本 黑洞 ， 单 靠 一 家 医院 或 
企业 很 难 解决 ， 需 要 上 升 到 行业 层面 子 以 突破 。 


人 工 智 能 + 医学 影像 ， 是 将 人 工 智能 技术 具体 应 用 在 医学 影像 的 诊 
断 上 ， 在 国外 主要 分 为 两 部 分 ， 一 是 图 像 识别 ， 应 用 于 感知 环节 ， 其 主 
要 目的 是 将 影像 这 类 非 结构 化 数据 进行 分 析 ， 获 取 一 些 有 意义 的 信息 ; 
二 是 深度 学 习 ， 应 用 于 学 习 和 分 析 环 节 ， 是 人 工 智能 应 用 的 最 核心 环 
节 ， 通 过 大 量 的 影像 数据 和 诊断 数据 ， 不 断 对 神经 元 网 络 进行 深度 学 习 
训练 ， 促 使 其 掌握 < 诊断 的 能 


医学 影像 数据 实际 上 是 报告 + 影像 。 单 单 分 析 影 像 本 身 还 不 够 ， 更 
重要 的 是 对 影像 本 里 所 对 应 的 诊断 报告 也 加 以 分 析 。 中 国 的 影像 诊断 报 
告 呈现 出 因 医 生 而 异 的 显著 特点 ， 这 取决 于 影像 诊断 医生 的 个 人 习惯 、 
执业 医院 、 教 育 背 景 、 叶 师 影 响 等 因素 ， 不 同 地 区 不 同 医 院 的 影像 报告 
标准 不 同 。 所 以 将 人 工 智 能 具体 应 用 在 医学 影像 诊断 上 ， 除 了 通行 的 图 
像 识别 和 深度 学 习 之 外 ， 还 有 一 个 前 提 : 如 何 将 80% 的 非 结 构 化 数据 转 
化 为 结构 化 数据 。 在 这 个 基础 上 ， 具 有 无 线 想 象 空间 的 医疗 数据 才 具 有 
沙 地 的 实现 价值 。 满 足以 上 三 个 条 件 才 意 味 看 能 够 将 人 工 智能 具体 应 用 
到 医学 影像 的 诊断 上 。 人 工 乔 能 能 否 成功 ， 条 件 只 有 一 个 ， 那 就 是 海量 
数据 ， 没 有 海量 的 数据 就 没有 意义 。 针 对 这 些 问 题 ， 激 活 数据 学 提供 了 
解决 的 可 能 ， 结 合 激活 数据 学 的 运行 机 理 ， 其 具体 路 径 如 下 。 


数据 搜索 。 数 据 搜索 是 激活 数据 学 的 第 一 步 ， 对 于 影像 采集 模块 ， 
在 庞大 的 影像 数据 中 ， 主 动 搜索 数据 ， 通 过 深度 学 习 ， 从 影像 数据 库 中 
抽取 最 能 匹配 的 影像 数据 。 目 前 大 数据 技术 主要 是 对 网 页 数据 与 日 志 数 
据 进 行 整理 、 交 叉 分 析 、 比 对 ， 从 而 对 数据 进行 深度 挖掘 ， 为 用 户 提 供 
个 性 化 的 迭代 分 析 能 力 。 随 痢 非 结构 化 数据 的 特征 提取 《指纹 、 图 像 、 
语音 自动 识别 、 基 因数 据 比 对 等 ) ， 以 及 半 结 构 化 数据 的 内 容 检索 、 理 
解 〈《 语 义 分 析 ) 等 技术 不 断 取得 进展 ， 图 像 大 数据 挖掘 的 研究 也 日 蔓 深 
入 。 图 像 大 数据 挖掘 的 主要 目标 是 从 中 提取 出 图 厂 的 自 喘 特征 ， 包 括 语 


义 、 质 量 、 关 联 度 、 实 体 义 项 等 。 三 以 往 那些 以 结构 化 为 主 的 数据 形 
式 ， 不 再 能 满足 图 像 分 析 所 需 。 在 激活 数据 学 下 ， 面 问 知 识 本 刁 的 数据 
模型 将 逐步 建立 起 来 ， 这 些 模型 能 够 支持 用 户 的 任务 与 决策 ， 还 可 以 文 
持 数 据 自 动 与 其 任务 标的 、 属 性 相 结 合 ， 对 图 像 背 后 隐藏 的 需求 进行 控 
据 ， 为 与 周边 环境 信息 进行 关联 计算 打下 坚实 的 基础 。 


关联 融合 。 激 活 数 据 学 中 的 关联 融合 是 探索 数据 的 内 在 关联 性 ， 对 
于 预 处 理 模 块 中 的 提取 影像 特征 ， 用 数据 精练 、 融 合 重 构 的 方法 对 特征 
言 轧 进行 关联 表达 ， 并 把 特征 信息 存放 在 特征 数据 库 中 ， 利 用 影像 特征 
言 轧 进行 匹配 奉 询 。 由 于 各 种 医学 成 像 设备 的 原理 不 同 ， 反 映 的 信息 也 
各 有 侧重 ， 单 纯 从 一 种 成 像 模式 所 获得 的 信息 是 不 全 面 的 。 如 果 把 不 同 
模 态 图 像 的 特征 性 信息 提取 出 来 ， 将 各 目的 优势 集 为 一 体 ， 融 合成 一 幅 
可 视 化 程度 更 高 、 信 息 更 丰富 的 图 像 ， 将 有 利于 综合 诊断 和 分 析 ， 其 最 
突出 的 优 点 在 于 能 够 充分 地 利用 多 种 成 像 模式 的 互补 性 ， 取 长 补 短 ， 得 
出 一 个 综合 的 、 立 体 的 结果 。 


自 激活 。 在 自 激活 这 个 阶段 ， 结 合 激活 数据 学 的 运行 机 理 ， 应 用 类 
似 于 大 脑 神经 突 触 联结 的 结构 进行 信息 处 理 的 数学 模型 ， 具 有 上 自 组 织 、 
目 学 习 、 目 处 理 、 目 适应 性 和 很 强 的 非 线 性 特点 。 利 用 多 智能 体 技 术 构 
建 复杂 目 组 织 系统 来 模拟 智能 产生 的 过 程 ， 对 复杂 的 医学 图 像 分 割 、 配 
准 、 融 合 、 压 缩 、 重 建 等 方面 的 问题 进行 建 模 ， 对 样本 数据 集 进行 训练 
和 学 习 ， 得 到 具有 相当 分 类 精度 的 分 类 模型 。 在 通过 这 个 特定 的 模型 运 
算 后 ， 目 激活 系统 会 有 一 个 结果 输出 ， 这 个 结果 能 优化 数据 ， 做 出 决 
策 ， 由 于 存在 多 个 自诉 活 系统 ， 所 以 会 输出 多 个 图 像 数 据 的 处 理 结 
这 为 复杂 的 多 模 态 的 疾病 诊断 提供 了 多 维 的 解决 方案 。 


热点 减 量化 。 由 于 在 自 激 活 系统 出 现 了 多 种 方案 ， 所 以 需要 热点 减 
量 。 在 热点 减 量 化 阶段 ， 可 基于 多 层次 的 中 选 机 制 ， 对 影像 数据 进行 算 
法 分 析 ， 最 具 价 值 的 数据 单元 留 下 ， 以 友 现 数据 的 主题 、 特 征 、 关 系 等 
规律 为 精准 识别 图 像 做 准备 。 这 个 阶段 对 于 解决 医疗 图 像 中 背景 知识 不 


清楚 、 推 理 规则 不 明确 和 比较 复杂 的 分 类 问题 来 次 极为 重要 。 通 过 热点 
减 量 ， 有 价值 的 洞察 力 为 诊断 结果 提供 文 持 或 否认 的 假设 判断 ， 为 最 终 
的 决策 输出 做 出 精准 的 预 判 。 


千 能 碰撞 。 在 智能 碰撞 阶段 ， 人 类 与 机 器 协同 ， 根 据 分 类 模型 对 未 
标记 的 影像 数据 集 进行 目 动 分 类 判别 ， 从 而 精准 高 效 地 判 识 问题 。 这 个 
阶段 也 是 找寻 最 优 解 的 过 程 ， 第 一 个 就 是 个 体 本 吴 所 找到 的 最 优 解 ， 另 
一 个 极 值 是 整个 种 群 目前 找到 的 最 优 解 ， 即 人 机 结合 所 做 出 的 最 优 解 。 
医学 影像 上 一 共 可 以 分 为 2 ”000 多 个 的 病 种 ， 解 决 一 个 单 病 种 已 经 不 是 
简单 的 事情 ， 更 何况 病 种 与 病 种 之 间 的 差异 度 也 很 大 ， 所 以 ， 人 工 智 能 
+ 医学 影像 需要 顶级 医学 专家 和 顶级 机 器 学 习 学 者 通力 合作 才 有 可 能 成 
功 。 目 前 还 没有 通用 的 方法 对 任意 医学 图 像 都 能 取得 绝对 理想 的 处 理 效 
朵 ， 传 统 经 典 的 图 像 处 理 方法 在 考虑 医学 图 像 实际 特点 的 基础 上 ， 夯 能 
结合 敞 活 数据 学 理论 ， 采 用 多 种 类 型 的 方法 结合 与 改进 使 用 ， 相 互 弥 补 
算法 功能 的 缺陷 ， 这 也 将 会 是 医学 图 像 处 理 技术 一 个 重要 的 发 展 方 癌 。 


(三 ) 激活 数据 学 提升 医疗 影像 价值 


为 了 解决 时 间 有 限 性 和 诊断 准确 性 的 问题 ， 将 人 工 智 能 引入 数字 病 
理学 研究 是 最 好 的 办 法 。 激 活 数据 学 下 的 人 工 智 能 可 以 更 大 程度 地 纵 短 
病理 诊断 的 时 间 、 提 升 诊断 效 紊 ， 最 主要 的 是 ， 它 还 能 提供 更 加 准确 的 
诊断 结果 。 激 活 数据 学 下 的 人 工 智能 可 以 真正 帮助 病理 医生 提升 判读 水 
平 ， 从 精准 诊断 开始 ， 真 正 实现 精准 医疗 。 


辅助 诊断 的 广泛 运用 。 智 能 辅助 诊断 凭借 计算 机 模拟 医生 的 思维 和 
诊断 推理 ， 给 出 可 靠 的 诊断 。 人 工 智能 在 医疗 影像 方面 的 应 用 在 对 比 精 
细 化 程度 上 显然 优 于 传统 医生 肉眼 观察 分 析 。 医 疗 数据 规模 和 数据 结构 
化 能 力 是 智能 辅助 诊断 技术 竞争 的 核心 壁垒 。 结 合 激 活 数 据 学 ， 在 工作 
原理 上 ， 辅 助 诊断 的 第 一 步 通过 目 然 语 言 处 理学 习 、 理 解 和 归纳 医疗 信 


恩 ， 包 括 权威 医学 书籍 文献 、 诊 疗 指南 和 病历 等 海量 信息 ， 上 自动 构建 一 
个 大 规模 的 “医学 知识 图 谱 ”， 类 似 机 器 大 脑 的 “医学 知识 库 ”， 第 二 步 用 
领先 的 深度 学 习 技 术 去 学 习 海 量 临床 诊断 案例 ， 再 对 比 数 十 万 机 器 与 专 
家 的 诊断 数据 后 ， 持 续 优 化 模型 ， 不 断 提 升 其 诊断 能 力 ， 得 出 基于 医学 
影像 、 检 查 检验 结果 、 病 史 等 多 个 维度 的 深度 诊断 ， 给 出 具体 病症 预 

测 。 这 为 医生 提供 了 更 好 的 决策 基础 ， 能 辅助 他 们 更 快 、 更 有 效 地 理解 
病案 ， 提 升 诊 疗效 率 。 


精准 医疗 的 进一步 实现 。 精 准 医 疗 是 由 基因 医学 、 转 化 医学 、 个 性 
化 医 闻 演 变 而 来 的 ， 基 于 系统 学 方法 ， 利 用 大 数据 分 析 ， 实 现 患 者 驱动 
的 医疗 管理 的 新 医学 模式 。 三 作为 下 一 代 诊 疗 技术 ， 精 准 医疗 具有 重要 
的 理论 和 实践 意义 。 一 方面 ， 精 准 医 疗 理 论 研究 有 利于 完善 数据 科学 学 
科 体 系 ， 丰 富 和 创新 临床 及 转化 医学 研究 ; 为 一 方面 ， 基 于 大 数据 的 精 
准 医疗 服务 可 以 实现 在 合适 的 时 间 给 予 患者 以 合适 的 治疗 =， 保障 医疗 
安全 ， 改 善 医院 经 营 管理 。 实 施 精准 医疗 的 前 提 是 ， 必 须 建 立 起 一 个 庞 
大 的 生物 信息 数据 库 ， 并 有 与 之 相配 的 健康 人 体 和 疾病 群体 的 大 数据 分 
析 、 海 量 数据 蜗 效 整合 、 高 通 量 信息 资源 共 至 等 文 持 ， 实 现 精 准 医疗 是 
一 项 非常 困难 的 系统 工程 。 在 整个 医学 影像 中 ， 医 学 大 数据 一 定 会 影像 
先行 ， 结 合 激活 数据 学 实施 乔 能 搜索 。 然 后 利用 云 计算 的 方法 增加 连接 
性 ， 利 用 深度 学 习 的 方法 挖掘 大 数据 的 价值 ， 利 用 发 现 数据 的 方法 在 更 
多 的 维度 中 挖掘 原来 浅 关 联 或 弱 关 联 的 关系 ， 利 用 三 者 的 关联 大 大 提高 
医疗 诊疗 效率 ， 再 结合 激活 数据 学 的 使 用 ,积累 优质 、 大 量 的 数据 ， 高 
性 能 计算 环境 ， 优 化 的 深度 学 习 方 法 ; 三 者 资源 配 齐 就 会 构建 不 断 提 升 
的 状态 的 模型 。 在 过 去 ， 医 生 在 解读 图 像 的 时 候 过 到 的 一 个 难题 束 是 雷 
要 寻找 关注 点 ， 比 如 说 有 一 些 非常 细微 、 非 常 不 易 碍 找 的 地 方 就 可 能 被 
人 们 急 略 。 基 于 激活 数据 学 中 的 自我 学 习 及 深度 学 习 ， 束 可 以 找到 诊断 
和 治疗 所 需要 的 信息 或 细微 之 处 。 此 外 ， 还 会 引发 自动 化 产品 的 出 现 ， 
目 动 化 的 产品 会 极 大 地 提高 诊断 的 效率 。 可 以 衣 定 ， 诉 活 数据 学 下 的 机 
器 自我 学 习 比 以 前 只 赁 医生 的 肉眼 和 经 验 来 识别 一 些 更 加 细微 的 病症 更 


为 准确 ， 这 些 最 终 推 动 精准 医疗 的 进步 。 
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1. 


第 四 市 
激活 数据 学 下 的 和 镶 能 语音 


(一 ) 智能 语音 交互 : 进 阶 的 交互 模式 


随 着 互联 网 的 医 动 发 展 ， 未 来 以 听觉 、 视 觉 、 手 势 等 融合 起 来 的 多 
通道 人 机 交互 、 以 虚拟 现实 技术 为 文 撑 的 计算 机 系统 和 以 智能 手机 、 镶 
能 手 环 、 智 能 车 载 为 主导 的 小 型 智能 设备 ， 势 必 会 重新 定义 互联 网 的 生 
态 系统 ， 成 为 科技 领域 中 新 的 探索 方向 。 在 越 来 越 细 分 的 领域 ， 语 音 交 
互 作 为 多 通道 人 机 交互 中 的 一 环 ， 势 必 会 成 为 不 可 抵挡 的 未 来 发 展 趋 


势 。 


语音 交互 与 传统 的 人 机 区 互相 比 ， 更 专注 于 在 某 些 特殊 场合 下 ， 胶 
体 或 视线 被 后 用 时 ， 利 用 语音 去 完成 运作 ， 比 如 开车 时 利用 语音 对 车 内 
功能 进行 操作 。 语 首 交 互 使 人 机 界面 同时 具备 了 “ 听 ” 和 “说 ”的 能 力 ， 在 
互联 网 服务 化 的 时 代 ， 语 音 将 解放 人 们 的 双手 ， 降 低 移 动 互联 网 的 使 用 
门 间 ， 让 输入 更 便捷 ， 服 务 效率 更 高 ， 从 而 成 为 移动 互联 网 及 展 的 一 个 
里 程 碑 。 


完整 的 语音 交互 过 程 分 为 三 个 步骤 : 听 清 、 上 听 懂 、 满 足 。 听 清 : 当 
用 户 的 声音 从 麦 元 风 输入 时 ， 应 有 拾 音 喜 记录 用 户 声音 ， 并 准确 地 进行 
识别 ， 将 最 终结 果 反 馈 给 人工 智能 大 脑 。 在 这 个 过 程 中 ， 需 要 软 人 硬件 以 
及 算法 去 处 理 所 有 声 首 ， 取 其 精华 ， 弃 其 糟粕 ， 最 终 记录 真正 的 指令 。 
听 懂 :在 大 脑 拿 到 结果 后 ， 要 对 其 进行 解析 ， 将 语音 转 为 文字 ， 并 进行 
语义 分 析 ， 需 要 强大 的 算法 和 机 器 学 习 能 力 不 断 去 纠 错 。 区 分 和 判断 哪 
些 是 命令 词 ， 哪 些 是 内 容 词 ， 最 终 普通 的 一 句 话 要 被 拆 分 为 命令 、 内 容 


等 相关 类 型 词 。 满 足 : 当 人 工 智能 大 脑 理解 了 一 句 简单 的 话 后 ， 接 下 来 
的 束 是 满足 用 户 需 求 。 用 户 如 需要 查询 ， 便 去 告诉 他 相应 内 容 ， 用 户 如 
需要 执行 动作 ， 便 去 完成 整个 动作 流程 。 


智能 语音 交互 最 典型 的 应 用 方式 是 语音 助手 、 语 音 搜索 。 语 音 助手 
的 最 终 目标 束 是 让 用 户 解放 双手 ， 完 全 使 用 语音 操作 系统 。 目 前 在 机 器 
语音 输入 和 输出 方面 有 很 多 研究 ， 但 是 大 多 数 研究 都 只 是 处 理 一 些 简 单 
的 、 固 定 的 词语 和 句子 ， 然 后 通过 计算 机 程序 编译 输出 一 些 比 较 机 械 化 
的 语言 。 对 于 人 类 复杂 的 说 话 、 语 境 语 义 的 理解 研究 还 停留 于 起 步 阶 
段 。 人 类 有 着 非 第 复杂 的 语言 ， 每 个 国家 每 个 地 域 的 语言 变化 、 词 汇 使 
用 都 不 一 样 ， 即 便 是 同一 个 人 ， 其 声音 、 发 音 以 及 聊天 方式 都 会 随 其 个 
人 状态 、 里 处 的 环境 以 及 过 到 的 人 友 生 相应 的 变化 。 因 此 ， 要 想 让 计算 
机 对 用 户 的 情绪 和 所 处 环境 更 为 了 解 ， 赋 予 计 算 机 更 多 的 人 类 观察 能 
和 更 多 情绪 、 情 感 能 力 ， 研 究 者 需要 在 情感 化 设计 与 智能 交互 方面 做 大 
量 的 研究 与 探索 。 


从 目前 市 场 上 乔 能 家 电 、 智 能 便 件 等 产品 的 发 展 趋势 来 看 ， 键 盘 输 
入 、 手 机 App〔 安 装 在 智能 手机 上 的 软件 ) 、 体 感 交 互 、 图 像 识别 等 多 
种 人 机 交互 并 存 。 但 是 随 着 大 数据 、 机 器 学 习 、 云 计算 、 人 工 智 能 等 技 
术 的 发 展 ， 语 音 交 互 正 一 步 步 解放 用 户 的 双手 ， 语 音 输 入 框 也 大 有 取代 
鼠标 、 键 盘 之 势 。 伴 随 着 智能 移动 设备 的 普及 ， 语 音 交 互 作为 一 种 新 型 
的 人 机 交互 方式 ， 已 引起 整个 IT 业界 的 重视 。 


(二 ) 智能 语音 技术 提升 的 路 径 选 择 


智能 语音 及 语言 交互 技 术 ， 可 以 应 用 在 社会 生活 的 方方面面 ， 拥 有 
广阔 的 产业 化 前 景 。 在 军事 、 教 育 、 汉 语 国际 推广 等 重要 战略 领域 ， 都 
有 广泛 应 用 和 重大 推广 意义 。 不 过 智能 语 首 存 在 两 大 技术 敌人 席 。 第 一 ， 
远 场 环境 复杂 ， 夹 杂 噪 声 、 混 啊 、 目 噪声 等 ， 容 易 导 致 机 需 问 <“ 听 不 


清 ”， 从 而 影响 后 续 一 系列 操作 。 解 决 了 这 个 问题 ， 偏 命令 控制 的 终端 
便 能 融 来 恨 好 的 用 尸体 验 ;， 第 二 ， 真 正 的 智能 需要 实现 语义 的 突破 、 需 
要 声 首 与 视觉 的 融合 ， 有 具有 更 深层 次 智能 的 拟人 形态 机 器 人 才 更 适合 运 
用 智能 语音 技术 ， 第 三 ， 该 项 技术 辑 悉 各 种 各 样 的 语言 、 口 音 和 方言 ， 

这 一 点 在 中 国 尤为 重要 。 技 术 的 创新 性 及 核心 研发 实力 是 人 工 智能 企业 
生存 的 关键 。 智 能 语音 要 想 取 得 突破 ， 与 语音 合成 、 语 音 识 别 、 目 然 语 
言 处 理 技术 、 语 音 评测 技术 、 声 纹 识 别 技术 等 关键 技术 的 发 展 密 不 可 

分 。 数 据 搜 索 、 关 联 融合 、 自 激活 、 热 点 减 量化 、 智 能 碰撞 是 激活 数据 
学 的 5 个 运行 阶段 ， 构 成 了 激活 数据 学 模型 化 运行 的 完整 流程 。 这 5 个 阶 
段 如 果 能 分 别 运 用 于 智能 语音 应 用 中 ， 将 从 整体 上 提升 整个 智能 语音 应 


用 的 水 平 。 


语音 识别 。 在 语音 识别 阶段 所 要 解决 的 问题 是 让 计算 机 能 够 “ 听 
懂 ” 人 类 的 语音 ， 将 语音 中 包含 的 文字 信息 “提取 ?出 来 。 该 技术 在 “能 听 
会 说 ”的 智能 计算 机 系统 中 扮演 着 重要 角色 ， 相 当 于 给 计算 机 系统 安装 
上 “ 耳 末 ”*， 使 其 具备 “ 听 ” 的 功能 ， 进 而 实现 信息 时 代 利 用 “语音 ”这 一 最 
自然 、 最 便捷 的 手段 进行 人 机 通信 和 交互 。 激 活 数 据 中 的 语音 识别 能 够 
更 主动 地 提取 语音 中 的 文字 信息 ， 并 进行 目 我 深度 学 习 ， 不 断 纠 错 ， 丰 
富 语音 维度 ， 更 快 、 更 精准 地 识别 文字 。 语 音 识 别 是 一 门 交 叉 学 科 ， 其 
涉及 的 数据 量 也 非常 大 ， 要 实现 精准 识别 束 必 须 不 断 加 强 学 习 能 力 ， 同 
时 还 要 扩充 语言 量 。 这 样 才 能 逐步 实现 将 人 类 语音 中 的 词汇 内 容 全 部 正 
确 地 转换 为 计算 机 可 读 的 输入 。 


语音 合成 。 语 音 合成 又 称 文 语 转换 技术 ， 它 涉及 声学 、 语 言 学 、 数 
字 信 和 号 处 理 、 计 算 机 科学 等 多 个 学 科技 术 。 语 音 合成 技术 解决 的 主要 问 
题 是 将 文字 信息 转化 为 声音 信息 ， 即 让 机 器 像 人 一 样 开口 说 话 。 语 音 合 
成 技术 主要 是 根据 韵律 建 模 的 结果 ， 从 原始 语音 库 中 取出 相应 的 语音 基 
元 ， 利 用 特定 的 语音 合成 技术 对 语音 基 元 进行 韵律 特性 的 调整 和 修改 ， 
最 终 合 成 出 符合 要 求 的 语音 。 如 果 说 数据 搜索 能 够 让 语音 识别 更 加 精 
准 ， 那 么 激活 数据 学 中 的 关联 融合 则 是 让 不 同 语音 之 间 的 深度 融合 建立 


了 一 个 通道 。 在 复杂 海量 的 语音 中 ， 关 联 融 合 能 更 清晰 地 构建 起 不 同 语 
音 系 别 之 间 的 相互 联系 ， 融 合成 全 新 的 语音 类 别 。 


自然 语言 处 理 技术 。 自 然 语言 处 理 技术 所 涵盖 的 研究 内 容 非 常 让 
泛 ， 从 研究 成 果 的 表现 形式 来 说 ， 基 本 可 以 分 为 基础 研究 和 应 用 研究 两 
大 类 。 在 基础 研究 中 主要 指 对 目 然 语 言 内 在 规律 的 研究 ， 从 研究 深度 和 
难度 上 大 致 可 以 划分 为 词典 编撰 、 分 词 断 句 、 词 性 分 析 、 语 言 模 型 、 语 
法 分 机、 语义 分 机 、 语 用 分 析 等 。 


在 应 用 研究 中 主要 基于 基础 研究 的 成 果 ， 面 癌 不 同 的 应 用 ， 研 发 相 
关 的 上 自然 语言 处 理 技术 ， 大 的 方 辐 包括 但 不 限于 : 拼音 输入 法 、 信 息 检 
索 、 信 息 抽 取 、 目 动 摘要 、 机 器 翻译 、 语 音 合成 、 语 音 识 别 、 文 本 匹 
配 、 文 本 分 类 、 对 话 系 统 等 。 


语义 理解 是 衡量 人 机 交互 体验 度 的 一 个 重要 指标 ， 人 工 智 能 的 核心 
古 认 知 ， 认 知 的 核心 是 语义 理解 拉 术 。 机 器 人 只 有 在 “ 懂 ” 了 人 类 的 指令 
后 ， 才 能 正确 执行 用 户 下 达 的 指令 。 结 合 激 活 数 据 学 的 自 激活 阶段 ， 智 
能 体 采 用 深度 学 习 的 方法 模拟 人 类 做 决策 ， 每 个 智能 体 即 一 个 独立 
的 “大 脑 ”， 这 些 独 立 而 又 积极 的 智能 体能 不 断 学 习 语义 , “ 诉 活 ?个 体 镶 
能 ， 深 化 认 知 ， 加 强 语义 理解 ， 从 而 提升 人 机 交互 的 体验 度 。 


声 纹 识别 技术 。 声 纹 识 别 技术 是 一 种 通过 语音 信号 提取 代表 说 话 人 
身份 的 相关 特征 (如 反映 声 门 开 合 频 京 的 基 频 特征 、 反 映 口 腔 大 小 形 
状 、 声 道 长 度 的 频谱 特征 等 ) ， 进 而 识别 出 说 话 人 吴 份 等 方面 的 技术 。 
它 可 以 广泛 应 用 于 信息 安全 、 电 话 银行 、 智 能 门禁 以 及 娱乐 增值 等 领 
域 。 语 音量 的 庞大 不 言 而 喻 ， 在 这 种 浩瀚 的 数据 中 提取 最 有 价值 的 语音 
言 号 就 要 结合 激活 数据 学 的 热点 减 量 化 这 点 ， 基 于 多 层次 的 筛选 机 制 ， 
将 有 限 的 计算 和 存储 资源 分 配给 最 其 价值 的 数据 单元 ， 这 样 才能 为 个 性 
化 的 声 纹 识别 提供 最 好 的 保障 。 


语音 评测 技术 。 语 音 评 测 技术 又 称 计 算 机 辅助 语言 学 习 ， 是 机 器 自 


动 对 用 户 发 音 进行 评分 、 检 错 并 给 出 矫正 指导 的 技术 。 语 音 评 训 扩 术 是 
智能 语音 处 理 领 域 的 研究 前 沿 ， 同 时 又 因为 能 显赫 提高 受众 对 口语 学 习 
的 兴趣 、 效 率 和 效 末 ， 而 有 着 广 阔 的 应 用 前 景 。 基 于 此 ， 语 音 评测 技术 
还 要 结合 激活 数据 学 中 的 智能 碰撞 来 进行 处 理 。 在 智能 碰撞 阶段 ， 人 类 
与 机 器 协同 强化 涌现 出 的 群体 乔 能 将 超越 个 体 智 力 ， 从 而 蜗 效 地 解决 复 
杂 问 题 。 现 在 语音 评测 技术 在 很 多 App 中 应 用 都 非常 广泛 ， 但 是 要 实现 
精准 评 训 还 需要 不 断 提 升 技 术 水 平 ， 仅 仅 靠 机 器 智能 是 不 行 的 ， 还 要 借 
助人 类 智力 ， 二 者 在 一 定 程度 上 达到 协同 才能 呈现 出 最 好 的 效果 。 


(三 ) 激活 数据 学 开局 语 首 交 互 新 时 代 


人 工 智 能 语音 进化 史 大 致 分 为 三 个 阶段 ， 人 工 智 能 语音 1.0 运 用 是 
一 问 一 答 的 形式 ， 人 工 智 能 语音 2.0 是 有 问 有 答 的 形式 ， 而 进入 人 工 智 
能 语音 3.0， 最 大 的 进展 就 是 人 机 交互 的 有 发展。 不 仅仅 有 问 有 答 和 包含 
上 下 文 逻 辑 了 ， 人 工 智 能 人 硬件 能 够 更 多 地 融合 各 种 环境 信息 ， 做 出 不 同 
决 宋 或 推荐 。 也 就 说 ， 在 交互 的 过 程 中 ， 机 器 有 了 更 多 的 主动 性 ， 能 够 
为 人 提供 更 多 、 更 好 的 帮助 ， 让 人 们 的 生活 更 便捷 、 更 安全 、 更 有 趣 。 
在 万 物 互 联 浪潮 下 ， 人 机 交互 需要 提供 更 乔 能 的 方案 来 完成 交互 工作 。 
信息 革命 以 来 ， 每 一 次 世界 商业 大 潮 的 兴起 都 是 由 人 机 交互 方式 开端 
的 ， 而 下 一 代 人 机 交互 便 是 语音 交互 。 激 活 数据 学 的 出 现 不 仅 能 让 人 工 
智能 语音 在 第 三 阶段 顺利 进化 ， 而 且 还 为 语音 交互 的 变革 提供 可 能 。 


近年 来 ， 云 计算 技术 已 经 发 展 成 为 大 众 化 的 服务 平台 ， 这 为 人 工 乔 
能 拉 术 的 实现 和 应 用 落地 提供 了 强大 的 后 台 保 障 。 云 计算 技术 降低 了 IT 
资源 使 用 门槛 ， 为 数据 集中 化 创造 了 基础 ， 极 大 地 促进 了 大 数据 产业 的 
发 展 。 同 时 ， 大 数据 是 智能 的 基础 和 土壤 ， 没 有 数据 就 没有 智能 ， 所 有 
的 智能 都 是 建立 在 数据 的 基础 上 。 移 动 互联 网 及 物 联网 的 普及 使 得 大 数 
据 技 术 迅 狐 发 展 ， 从 而 也 助 推 了 人 工 智 能 的 长 足 进 步 ， 这 是 因为 人 工 智 
能 技术 使 用 统计 模型 来 进行 数据 的 概率 推算 ， 这 些 模型 只 有 在 大 数据 海 


洋 中 不 断 优化 或 者 “训练 >"， 深 上 度 学 习 算 法 输出 的 结果 才 更 加 准确 。 


在 这 样 的 背景 下 ， 激 活 数 据 学 为 语 首 交互 变 章 提供 理论 和 技术 上 的 
可 能 。 智 能 语音 交互 技术 属于 多 学 科 交 叉 的 边缘 学 科 ， 涉 及 语言 学 、 心 
理学 、 工 程 学 和 计算 机 技术 等 领域 ， 不 仅 要 对 语音 识别 和 语音 合成 技术 
进行 研究 ， 还 要 对 人 在 语音 通道 下 的 交互 机 理 、 行 为 方式 等 进行 研究 ， 
让 机 器 像 人 一 样 从 “能 听 会 说 ?到 “能 理解 会 思考 ”。 激 活 数据 学 以 超大 规 
模 数 据 作 为 研究 对 象 ， 以 超大 规模 数据 在 块 上 集聚 为 基础 ， 能 够 较为 系 
统 地 奢 括 多 门 学 科 数 据 并 能 精准 识别 基于 群体 智能 的 结构 理论 与 组 织 方 
法 ， 通 过 研究 基于 群体 与 环境 数据 分 析 的 主动 感知 ， 构 建 形成 人 机 协 
同 、 交 互 驱 动 的 演进 式 群 智 决 策 系 统 等 ， 从 应 用 上 为 语音 交互 的 变 单 提 


供 可 能 。 


以 前 是 以 机 需 为 中 心 进行 交互 ， 未 来 会 以 人 为 中 心 进 行 交 互 。 万 物 
互联 浪潮 下 ， 人 根据 语 首 的 控制 ， 根 据 视觉 的 控制 ， 然 后 配合 手 的 操 
作 ， 完 成 整个 交互 过 程 。“ 云 + 端 ” 方 式 最 大 限度 地 利用 资源 的 组 合 优 
势 ， 形 成 应 用 能 力 的 突破 ; PC 个 人 计算 机 〉 时 代 ， 和 信 们 与 机 器 通过 
键盘 和 鼠标 交流 ， 与 机 器 “沟通 ”需要 学 会 打字 、 鬼 键 操作 ， 移 动 互联 网 
时 代 ， 人 们 与 智能 手机 通过 触摸 屏幕 交流 ， 只 需 滑 一 滑 手指 即 可 完成 任 
务 ; 未 来 智能 时 代 ， 结 合 激 活 数据 学 ， 机 器 将 更 像 人 类 的 一 员 ， 与 它 之 
间 的 交互 方式 将 更 趋同 于 人 与 人 之 间 的 交互 。 


第 九 章 


云 脑 时 代 : 开局 数字 文明 新 纪元 


云 脑 时 代 是 运用 激活 数据 学 这 个 新 方法 论 推动 人 、 重 能 机 需 和 云 计 
算 等 融合 发 展 的 新 时 代 ， 也 是 新 技术 、 新 模式 被 激活 应 用 的 时 代 。 新 的 
科技 革命 与 产业 变 单 测 涌 而 至 ， 大 数据 、 云 计算 、 人 工 智 能 日 新 月 并 ， 
世界 变 成 一 个 更 加 开放 、 更 加 复杂 的 巨 系统 ， 不 确定 性 和 不 可 预知 性 使 
一 切 坚固 的 事物 都 可 能 消失 得 无 影 无 踪 。 


人 脑 时 代 ， 知 识 就 是 力量 ， 电 脑 时 代 ， 信 息 就 是 能 量 ， 云 脑 时 代 ， 
数据 就 是 变量 。 数 据 、 计 算 和 场景 的 广泛 应 用 ， 深 刻 改变 着 人 们 的 生 
产 、 生 活 方 式 ， 革 新 着 人 类 社会 的 世界 观 、 价 值 观 和 方法 论 。 尤 其 是 海 
量 数据 的 达 代 训练 应 用 ， 让 机 器 变 得 越 来 越 关 能 ， 机 器 的 智能 化 极 大 地 
改善 了 机 器 同人 类 沟通 协作 的 能 力 ， 人 机 合作 成 为 驱动 人 类 解决 复杂 问 
题 和 创造 一 个 更 为 井然 有 序 时 代 的 中 坚 力量 。 


云 脑 时 代 ， 人 工 智能 作为 新 一 轮 科 技 章 命 和 产业 变革 的 核心 力量 ， 
为 人 类 社会 的 经 济 发 展 市 来 了 历史 性 的 变革 。 与 此 同时 ， 作 为 一 项 不 断 
发 展 中 的 新 技术 ， 人 工 智能 束 像 " 脱 了 续 的 野马 ?肆意 奔腾 ， 正 在 以 我 们 
无 法 想象 的 速度 发 展 壮大 。 如 果 人 工 智 能 的 发 展 不 受 人 类 控制 ， 它 可 能 
会 成 为 人 类 文明 的 终结 者 。 区 块 链 的 发 展 为 人 工 智 能 提供 指引 ， 并 重 塑 
了 人 工 智 能 时 代 的 新 生态 。 


云 脑 时 代 ， 数 字 文 明 不 仅 是 驱动 经 济 发 展 的 新 动能 ， 同 时 也 形成 了 
一 种 新 的 以 数 权 法 为 主流 价值 观 的 社会 秩序 。 未 来 的 互联 网 ， 将 不 再 只 
古 部 分 领域 的 互联 网 ， 而 是 全 人 类 共同 至 有 的 互联 网 ， 也 是 在 实现 了 人 


的 全 面 自 由 发 展 环境 下 的 自由 互联 ， 推 动 全 人 类 进入 数字 命运 的 共同 体 
时 代 。 


第 一 节 
驱动 云 脑 时 代 的 “三 驾 马 车 ” 


(一 ) 数据 驱动 


数据 作为 信息 时 代 的 新 能 源 ， 为 人 类 文明 发 展 提供 了 动力 。 能 源 是 
人 类 生产 和 生活 的 物质 基础 ， 从 原始 文明 到 农 寿 文明 ， 人 类 依靠 人 力 、 
畜 力 和 太阳 能 、 风 能 、 水 能 等 可 再 生 能 源 来 利用 自然 和 改变 环境 。 工 业 
文明 时 代 ， 生 物 能 源 逐 渐 被 煤 、 石 油 、 天 然 气 等 化 石 能 源 所 符 代 ， 化 石 
能 源 的 发 现 和 大 规模 的 使 用 加 速 了 人 类 文明 的 进步 。 到 了 信息 文明 时 
代 ， 从 商业 科技 到 医疗 、 政 府 、 教 育 、 经 济 、 人 文 以 及 社会 的 其 他 领域 
无 不 流动 着 海量 的 数据 ， 我 们 的 生活 已 经 离 不 开 数 据 了 ， 数 据 作为 新 兴 
能 源 登 上 历史 舞台 。 对 海量 数据 的 关联 分 析 ， 能 够 更 好 地 洞悉 社会 友 展 
规律 。 将 来 会 有 越 来 越 多 的 企业 以 数据 为 底 料 进行 生产 加 工 ， 产 出 影响 
人 类 社会 进步 的 新 产品 。 


计算 机 的 普及 与 算法 的 出 现 促使 互联 网 高 速 发 展 ， 累 积 沉 演 了 海量 
的 数据 。 万 物 互联 时 代 ， 凡 是 能 嵌入 计算 机 的 设备 ， 都 将 成 为 计算 装 
置 。 各 种 具备 智能 、 可 编程 的 计算 装置 的 数量 和 种 类 正 以 意 想 不 到 的 速 
度 激 增 ， 这 些 计 算 装 置 都 在 以 数字 化 的 方式 测量 和 记录 着 物理 世界 。 随 
独 技 术 癌 前 推进 ， 人 类 活动 呈现 出 多 样 化 、 多 维度 、 零 时 兰 等 特点 。 连 
入 网 络 中 的 所 有 硬件 时 刻 都 在 产生 数据 ， 手 机 、 电 脑 、 知 能 家 电 ， 和 遍布 
城市 每 个 角落 的 传感器 不 知 疲倦 地 上 传 、 下 载 数据 。 据 统计 ， 互 联网 时 
代 ， 每 天 每 人 总 共 会 产生 3 艾 字 节 的 计算 机 数据 ， 照 这 个 速度 下 去 ， 到 
2020 年 预计 会 形成 一 个 40 译 字 节 数据 资料 的 数据 宇宙 。 如 此 大 量 的 信 
恩 ， 应 该 是 非 第 有 价值 的 。 


数据 让 市 场 变 得 更 聪明 。 在 2017 年 5 月 贵阳 大 数据 博览 会 上 ， 阿 里 
巴巴 集团 董事 局 主席 号 云 在 “机 器 智 能 "高峰 对 话 上 的 演讲 表示 ， 大 数据 
让 计划 和 研判 成 为 可 能 ， 市 场 变 得 更 加 聪明 。 为 了 优化 资源 配置 、 调 动 
企业 和 劳动 者 积极 性 、 协 调经 济 友 展 ， 中 国 由 计划 经 济 转 癌 市 场 经 济 ， 
用 市 场 经 济 中 看 不 见 的 手 ， 进 行 宏观 调控 。 在 数据 经 济 时 代 ， 借 助人 工 
智能 、 互 联网 、 大 数据 ， 把 我 们 能 够 措 到 甚至 利用 的 那 只 手 进 行 新 时 代 
的 “计划 ”经 济 。 


数字 文明 时 代 ， 数 据 将 成 为 人 类 关系 构建 、 社 会 结构 演进 的 新 视 
角 。 通 过 研究 数据 与 人 之 间 的 关系 以 及 数据 流 如 何 最 终 形 成 个 人 、 组 
织 、 城 市 和 社会 规范 ， 可 以 明天 地 锻 探 数据 所 市 来 的 社会 结构 、 认 知 结 
构 的 演化 和 变迁 。 正 如 大 卫 : 马 尔 所 称 的 行为 计算 理论 发 展 : 如 何 用 数 
学 解释 社会 为 什么 会 产生 这 样 的 反应 ， 以 及 这 些 反 应 怎样 解决 或 为 什 
么 不 能 解决 ) 人 类 的 问题 。 我 们 正 党 试用 简单 数据 清晰 地 描述 社会 现 
象 ， 构 建 社会 结构 的 因果 理论 。 


与 显 微 错 、 望 远 镜 为 生物 和 天 文 研究 带 来 革命 一 样 ， 数 据 将 会 丰 覆 
研究 人 类 行为 的 范式 。 原 来 的 “市 场 * 资 本 “社会 学 ”等 词汇 塑造 了 我 们 
对 世界 的 看 法 ， 它 们 固然 有 用 ,但 也 代表 过 于 简单 和 传统 的 思维 束缚 
我 们 对 未 来 清醒 而 有 效 的 思考 能 力 。 数 十 亿 条 的 电话 记录 、 文 付 记 录 和 
GPS 定位 记录 为 科学 家 提供 了 新 的 透镜 ， 使 我 们 可 以 观察 到 社会 的 细微 
之 处 。 大 数据 为 我 们 提供 了 洞悉 社会 各 种 复杂 性 的 机 会 。 如 果 我 们 拥有 
能 洞察 一 切 的 * 上 稼 之 眼 ?， 惑 极 有 可 能 真正 理解 社会 是 如 何 运作 的 ， 从 
而 采取 措施 来 解决 人 类 面临 的 问题 。 


未 来 ， 我 们 很 可 能 掌握 关于 人 类 行为 的 无 比 丰富 的 连续 数据 。 一 旦 
实现 对 人 类 生活 模式 更 精确 的 可 视 化 ， 我 们 就 有 望 采 取 更 适合 复杂 、 互 
联 的 人 类 和 科技 网 络 的 方式 来 理解 和 管理 当代 社会 。 我 们 构建 的 社会 系 
统 不 再 局 限于 市 场 、 阶 层 和 政党 等 范围 的 集合 ， 而 是 考 夸 了 想法 交换 的 
具体 模式 。 这 将 有 助 于 章 造 一 个 更 好 地 避免 市 场 朋 泪 、 种 族 骏 力 、 宗 教 


纷争 、 政 治 僵局 、 腐 败 横行 以 及 专制 集权 的 社会 。 为 此 ， 我 们 首先 需要 
建立 有 利于 增长 和 创新 的 科学 、 可 靠 的 政策 ， 构 建 保护 隐私 和 公众 知情 
权 的 法 律 框架 。 这 些 措施 能 让 我 们 对 政策 的 执行 有 全 新 的 认 知 ， 并 能 够 
快速 有 效 地 采取 行动 解决 问题 。 


我 们 的 社会 已 经 开局 了 一 场 可 与 印刷 和 互联 网 带 来 的 革命 相 比 肩 的 
伟大 旅程 。 云 脑 时 代 的 最 佳 搭档 是 人 脑 + 电 脑 。 海 量 数据 和 迭代 训练 使 得 
机 需 越 来 越 智 能 ， 可 以 与 人 类 沟通 ， 甚 至 超越 人 类 的 东 些 能 力 ， 人 机 合 
作 将 能 够 解决 人 类 面临 的 复杂 问题 ， 创 造 出 一 个 在 管理 方面 更 为 井 井 有 
条 的 时 代 。 我 们 第 一 次 获得 了 真正 了 解 我 们 自身 和 社会 如 何 演变 所 需要 
的 数据 。 通 过 更 好 地 理解 自己 ,我们 将 有 可 能 构建 一 个 没有 战争 或 金融 
月 法 的 世界 ， 一 个 快速 发 现 和 过 制 传染 病 的 世界 ， 一 个 不 再 溪 费 能 源 、 
资源 的 世界 ， 一 个 政府 是 用 来 解决 问题 而 不 是 制造 问题 的 世界 。 然 而 ， 
为 了 实现 这 些 目 标 ， 我 们 首先 需要 了 解 激活 数据 学 的 社会 学 范式 ， 然 后 
决定 我 们 的 社会 应 该 把 什么 奉 为 人 至宝， 以 及 我 们 为 了 得 到 它们 甘愿 做 出 
什么 样 的 改变 。 


(二 ) 计算 驱动 


计算 变 成 人 类 能 力 的 一 部 分 ， 成 为 一 种 核心 竞争 力 。20 世 纪 30 年 
代 ， 早 在 现代 计算 机 问世 之 前 立 福 德 就 在 其 著作 中 指出 ， 目 动 化 的 一 个 
目的 是 “放大 人 体 的 机 械 或 者 感官 能 力 ， 将 人 类 生命 的 各 个 阶段 简化 为 
可 以 测量 的 秩序 和 规律 >。 三 随 看 需求 的 提高 和 科学 的 进步 ， 很 多 最 新 
的 技术 都 池 凋 了 体力 延伸 、 感 官 延伸 和 智力 延伸 三 个 方面 ， 并 昌 着 更 方 
便 、 更 节省 、 更 有 用 、 更 真实 的 原则 不 断 进步 。 面 部 识别 、 语 音 命 令 、 
眼球 追踪 和 手势 控制 等 感知 计算 技术 将 人 脑 和 电脑 有 效 地 进行 连接 ， 语 
音 命 令 和 面部 识别 已 得 到 广泛 应 用 ， 而 眼球 追踪 和 非 接 触 式 手势 控制 技 
术 也 获得 了 关注 。 后 两 种 技术 带 来 了 全 新 的 输入 方式 ， 未 来 也 将 逐渐 普 


及 。 测 量 束 是 用 茶 种 标准 尺度 ， 对 事物 进行 “量化 ”的 过 程 ， 感 知 计算 就 
是 把 心理 学 、 和 生理学、 生物 学 的 种 种 表征 ， 诸 如 情绪 、 感 知 、 喜 怒 及 乐 
等 ， 借 助 感知 计算 技术 ， 分 析 人 类 行为 数据 ， 发 现 社会 隐形 秩序 。 


同时 ， 认 知 计算 通过 数据 挖掘 、 图 像 识 别 以 及 自然 语言 来 进行 自我 
学 习 ， 建 立 具 有 推理 能 力 ， 能 够 与 人 、 环 境 互 动 并 自行 解决 复杂 问题 的 
计算 系统 ， 最 终 让 机 器 像 大 脑 一 样 思 考 ， 为 人 类 提供 更 专业 的 决 集 参 
考 。 在 医疗 行业 ， 认 知 计算 提供 个 性 化 服务 ， 协 助 医生 搜索 和 分 析 ， 担 
任 医生 的 咨询 助手 ， 在 金融 行业 ， 它 可 以 解读 财务 、 法 规 、 经 济 和 社会 
数据 等 信息 ， 提 高 人 类 的 商业 洞察 力 ;， 全 于 客户 服务 方面 ， 它 通过 分 析 
客户 行为 ， 为 客户 提供 更 好 的 体验 与 互动 。 计 算 能 力 的 提高 ， 能 够 更 
快 、 更 好 、 更 准 地 找到 问题 、 解 决 问 题 ， 为 人 类 节约 大 量 的 时 间 ， 加 快 
了 人 类 社会 演化 的 步伐 。 


计算 成 为 一 种 公共 服务 ， 是 创新 时 代 的 新 动能 。 计 算 对 数字 经 济 的 
重要 性 ， 就 像 电 对 传统 经 济 的 重要 性 一 样 。 美 国 是 人 类 历史 上 第 一 次 把 
电 变 成 公共 服务 的 国家 。 云 脑 时 代 ， 人 类 对 计算 的 需求 将 达到 一 个 前 所 
未 有 的 高 度 ， 同 时 对 获得 计算 能 力 的 公平 性 提出 了 挑战 ， 由 用 户 购 买 、 
建设 、 维 护 计 算 基 础 设施 的 传统 方式 日 益 显 得 低 效率 和 蜗 成 本 。 人 们 项 
望 计算 资源 完全 能 够 像 水 、 电 、 煤 这 类 公共 产品 一 样 通过 网 络 交 付 、 用 
户主 导 、 需 求 驱 动 、 按 需 服 务 、 即 用 即 付 。 从 产业 角度 讲 ， 把 计算 变 成 
一 种 新 的 普 惠 性 的 公共 服务 ， 癌 人 类 提供 高 科技 、 低 门槛 、 简 单 易 用 的 
计算 服务 和 能 力 ， 有 可 能 让 中 国 迎 来 一 次 路 越 式 的 发 展 ， 文 撑 下 一 小数 
字 中 国 的 建设 和 发 展 。 云 脑 时 代 ， 云 计算 、 大 数据 、 人 工 智 能 ， 都 将 成 
为 基本 的 公共 服务 。 所 有 的 行业 ， 包 括 物流 业 、 制 造 业 、 服 务 业 、 人 金融 
业 、 教 育 业 ， 在 这 场 技术 单 命 的 推动 之 下 ， 将 变 得 更 高 效 、 更 公平 、 更 
加 回归 行业 的 本 质 。 同 时 ， 当 计算 真正 变 成 一 种 公共 服务 时 ， 人 关 的 创 
造 力 以 及 想象 的 空间 将 实现 资源 配置 效益 的 最 大 化 ， 创 新 动能 将 喷涌 而 
出 5 


计算 的 核心 在 于 算法 ， 算 法 是 驱动 云 脑 时 代 的 内 生动 力 。 正 如 伯 纳 
德 : 沙 泽 勒 所 说 ，20 世 纪 是 方程 的 世纪 ， 但 21 世 纪 是 算法 的 世纪 。 云 脑 
时 代 ， 普 惠 泛 在 的 信息 网 络 体 系 人 人 共享 ， 数 据 连接 型 社会 孕育 而 生 ， 
互联 网 变 成 基础 设施 ， 数 据 变 成 新 的 生产 资料 ， 计 算 变 成 公共 服 
务 ,“ 互 联网 + 数据 + 计算 ”将 产生 1+1+1>3 的 聚变 效应 ， 成 为 驱动 云 脑 时 
代 的 核心 引擎 ， 驱 动 未 来 发 展 的 核心 动力 。 计 算 的 核心 在 于 算法 ， 算 法 
是 计算 的 灵魂 。 计 算 机 语言 从 Basic 到 C、C++、Java， 再 到 后 来 的 
PHP、Ruby 等 ， 你 方 唱 黑 我 登场 ， 让 人 眼花 综 乱 。 算 法 确实 是 计算 机 科 
学 的 核心 ， 是 创造 计算 智能 、 解 决 科学 问题 、 开 发 商业 软件 的 基础 。 在 
21 世 纪 的 今天 ， 算 法 每 时 每 刻 都 会 对 展示 在 我 们 眼前 的 信息 进行 分 类 、 
和 旬 选 和 取舍 。 我 们 看 到 的 百度 搜索 ， 微 信 、 微 博 上 显示 的 好 友信 息 ， 今 
日 头条 给 我 们 推荐 的 有 价值 的 、 个 性 化 的 信息 等 ， 都 是 算法 作用 的 结 
果 。 算 法 正在 以 各 种 各 样 的 方式 ， 影 响 着 世界 的 方方面面 ， 包 括 企 业 创 
新 、 产 业 变 革 、 经 济 发 展 。 


计算 是 思维 方式 的 技术 基础 ， 有 何 种 技术 基础 ， 就 有 相对 应 的 思维 
方式 。 云 脑 时 代 ， 整 个 社会 和 经 济 体系 可 能 都 要 基于 计算 的 变革 来 重新 
设计 ， 比 如 管理 进出 口 的 方式 ， 将 从 管理 “计算 机 * 的 进出 口 ， 演 变 为 管 
理 “ 计 算 ” 的 进出 口 。 这 实际 上 已 经 发 生 了 。 正 如 ， 今 天 美国 的 企业 在 利 
用 阿里 巴巴 的 云 计算 ， 而 中 国 的 企业 在 使 用 亚马逊 的 云 计算 ， 计 算 已 经 
成 为 和 高 铁 一 样 的 进出 口 产品 ， 不 断 地 创造 "看 不 见 的 价值 ， 驱 动 未 来 
社会 的 发 展 ， 成 为 云 脑 时 代 不 可 或 缺 的 一 部 分 。 


总 之 ， 一 个 优秀 的 工业 级 推荐 系统 需要 有 一 个 非常 灵活 的 算法 实验 
平台 ， 才 可 以 支持 多 种 算法 组 合 和 模型 结构 调整 。 不 过 很 难 有 一 套 通用 
的 模型 架构 适用 于 所 有 的 推荐 场景 。 现 在 很 流行 将 LR 逻辑 回归 )〉 和 
DNN (深层 神经 网 络 ) 结合 ， 前 几 年 Facebook 也 将 LR 和 GBDT 梯度 提 
升 决策 树 〉 算 法 做 了 结合 。 最 新 公开 的 今日 头条 的 算法 原理 就 体现 了 其 
算法 推荐 系统 的 强大 ， 尤 其 是 其 对 热度 特征 的 把 握 ， 包 括 全 局 热度 、 分 
类 热度 、 主 题 热度 、 关 键 词 热度 等 ， 在 很 大 程度 上 体现 了 激活 数据 学 中 


关于 热点 减 量 的 基本 理念 。 正 是 通过 热点 减 量 ， 不 同 内容 热 度 信息 在 数 
气量 大 的 推荐 系统 中 ， 特 别 是 在 用 户 冷 司 动 的 时 候 就 变 得 非常 有 效 。 忆 
外 ， 算 法 对 泛 低 质 内 容 如 假 新 闻 、 黑 稿 、 题 文 不 符 、 标 题 党 、 内 容 质 量 
低下 等 的 识别 技术 水 平 不 高 ， 仅 仅 由 机 需 辨 别 是 非常 难 的， 需要 结合 
工 复审 ， 将 阐 值 提高 ， 而 这 只 有 通过 有 效 的 人 机 结合 及 智能 碰撞 后 ， 才 
能 达到 更 有 效 的 结果 。 


(三 ) 场景 驱动 


人 类 社会 进入 数字 文明 时 代 ， 数 据 爆炸 正在 驱动 着 新 的 组 织 与 共享 
模式 。 人 作为 客体 被 接 入 了 互联 网 ， 成 为 一 个 不 断 采 集 数 据 并 癌 云 端 传 
和 输 数据 的 节点 ， 开 司 了 数据 人 时 代 。 人 在 不 同 场合 的 活动 都 将 在 数据 刻 
画 下 趋向 明显 化 。 谷 歌 地 图 通过 采集 人 类 活动 数据 ， 利 用 定位 和 导航 技 
术 ， 刻 画 出 虚拟 世界 场景 并 在 线 上 展示 。 因 此 ， 谷 歌 地 图 创造 了 一 个 合 
意 的 虚拟 线 上 场景 ， 来 弥补 线 下 合意 场景 的 不 足 。2013 年 年 底 ， 有 报道 
称 一 名 男子 在 5 岁 时 被 拐卖 到 千里 之 外 ，23 年 后 他 通过 记忆 ， 借 助 谷歌 
地 图 ， 找 到 了 回 家 的 路 。 现 实 中 一 些 人 类 行为 的 场景 只 有 通过 技术 手段 
并 且 依 靠 虚拟 的 线 上 场景 展示 ， 才 能 最 大 限度 地 产生 符合 人 类 行为 场景 
的 合意 结果 。 


场景 是 人 类 行为 的 有 反应。 从 本 质 上 来 讲 ， 人 类 行为 是 按照 不 同 的 场 
景 条 件 〈 如 自然 环境 、 风 俗 习惯 等 ) ， 对 自身 行为 进行 调整 的 过 程 。 人 
类 通过 对 不 同 场景 的 数据 进行 刻画 、 连 接 形成 对 客观 世界 的 不 同 镜像 世 
界 。 不 同 镜像 的 组 合 形成 不 同 的 体系 。 如 果 连 接 只 发 生 在 体系 与 体系 
间 、 镜 像 与 镜像 间 ， 这 种 数据 之 间 的 互相 印证 只 能 文 持 模 糊 结 论 而 非 精 
人 确 结果 。 人 解决 精 准 还 原 需 要 数据 的 “场景 化 ”。 在 任何 体系 内 的 数据 抽取 
和 沉积 都 只 能 是 客观 世界 的 反应 ， 是 客观 世界 的 一 部 分 ， 而 不 是 全 部 。 
镜像 世界 可 以 打破 数据 之 间 的 壁垒 ， 实 现 数据 的 流通 ， 提 高 数据 质量 ， 
避免 错误 的 场景 重 现 ， 减 少 出 现 错误 的 连接 以 及 错误 的 决策 ， 了 最 终 更 精 


确 还 原 人 类 行为 。 


景 洞察 是 建立 在 场景 中 产生 的 数据 可 被 记录 和 分 析 的 基础 上 。 这 
些 记录 下 来 的 数据 ， 可 以 帮助 我 们 形成 最 为 清晰 的 用 户 画 像 ， 同 时 基于 
数据 ， 我 们 可 以 进行 场景 的 量化 分 析 、 纤 合 洞 笃 ， 更 深入 理解 场景 和 场 
景 中 人 的 决策 机 制 。 场 景 洞察 使 两 个 机 制 成 为 可 能 : 第 一 个 机 制 是 过 去 
场景 可 退 溯 ， 完 全 了 解 在 过 去 场景 中 人 的 决策 机 制 ， 第 二 个 机 制 是 未 来 
场景 可 感知 ， 是 对 未 来 进行 动态 、 持 续 更 新 变化 的 “态势 感知 ”， 感 知 到 
未 来 各 个 场景 的 发 展 态势 ， 从 而 根据 需求 ， 有 和 针对 性 地 构建 和 连接 场 
景 。 真 正 运用 好 全 局 数据 ， 可 以 利用 其 进行 合适 的 场景 构建 、 匹 配 的 场 
景 连接 和 精准 的 场景 洞察 ， 这 会 真正 赋予 数据 智慧 。 


数字 文明 时 代 的 场景 应 用 是 遂 人 愿 、 知 人 意 。 数 字 系 统 可 以 全 居 完 
整地 映射 物理 实体 世界 ， 可 以 完整 地 记录 人 的 性 格 、 思 维 、 习 惯 以 及 生 
活 中 的 一 切 。 现 在 更 优质 的 数据 已 经 开始 具备 可 针对 不 同 个 体 、 群 体 所 
处 情境 ， 洞 察 情境 中 “人 ”的 决策 机 制 ， 提 供 更 精准 、 更 智慧 决策 结果 的 
能 力 。 数 据 的 融会 员 通 ， 可 针对 不 同 个 体 、 群 体 所 处 情境 ， 调 察 情境 
中 “人 ”的 决策 机 制 ， 提 供 更 精准 、 更 智 意 的 决策 结 宁 。 借 助人 工 智能 快 
速 地 挖掘 和 搜集 相关 数据 ， 整 理 成 特定 地 点 或 环境 下 针对 特定 客户 需要 
的 形式 和 内 容 ， 让 用 户 轻松 擎 握 ， 以 便 同 客户 在 特定 场景 下 互动 交流 ， 
达成 目标 。 场 景 本 身 就 是 连接 。 场 景 连接 可 以 是 整个 场景 与 场景 的 连 
接 ， 亦 可 以 是 场景 中 的 茶 个 要 又 之 间 的 连接 。 场 景 的 智能 化 是 一 个 漫长 
的 、 波 当 陈 推进 的 、 螺 旋 式 上 升 的 进化 过 程 ， 从 感知 到 认 知 ， 从 本 能 到 
技能 ， 从 组 织 到 上 自 组 织 ， 由 量变 到 质变 ， 由 实体 化 到 数字 化 再 到 智能 
化 ， 最 终 能 够 感知 和 协同 人 类 。 


数字 文明 的 场景 应 用 将 实现 人 的 充分 自由 。 马 元 思 说 :“ 一 个 种 的 
所 有 特性 、 种 的 类 特性 就 是 在 于 其 生命 活动 的 性 质 ， 而 人 的 类 特性 恰恰 
就 是 自由 的 自觉 的 活动 。” 三 随 着 海量 数据 的 爆发 和 技术 的 高 速 发 展 ， 
人 、 机 、 物 能 够 自由 连接 和 深刻 沟通 ， 相 互 演进 ， 涌 现 出 更 多 、 更 新 、 


更 酷 的 智能 化 现象 ， 一 大 波 远 超 当 今 人 类 所 能 想象 的 智能 黑 科 技 正 在 加 
速 到 来 。 万 物 的 互联 互通 ， 将 会 带 来 一 个 高 度 智 能 化 、 人 性 化 的 世界 。 
机 器 将 变 得 越 来 越 镶 能 ， 变 得 充分 满足 人 的 需求 ， 服 务 人 类 ， 顺 应 目 

然 。 人 类 目 身 的 智能 也 将 从 过 去 数 十 万 年 间 长 期 依赖 目 然 缓慢 进化 到 借 
助人 工 知 能 加 速 进化 的 过 程 ， 特 别 是 当 脑 机 接口 科技 重 现 摩 尔 定律 ， 成 
本 大 幅 下 请， 引发 人 体 和 人 脑 联 网 的 狂潮 之 后 ， 人 类 将 越 来 越 目 由 目 在 
地 进行 社会 活动 。 
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区 块 链 : 人 工 智 


(一 ) 哲学 视 域 下 的 人 工 智能 风险 


进入 21 世 纪 ， 人 类 社会 的 文明 演化 呈现 出 加 速 发 展 的 态势 。21 世 纪 
的 最 初 10 年 ， 以 互联 网 的 普及 使 用 为 纽 市 ， 社 会 结构 得 以 重新 组 织 ， 人 
类 社会 与 物理 社会 广泛 连 接 ， 自 此 开局 了 与 以 往 有 别 的 网 络 社会 时 代 。 
时 至 2010 年 左右 ， 基 于 广泛 分 布 的 传 感 技术 、 大 规模 数据 存储 和 通信 技 
术 的 应 用 ， 数 据 规模 呈现 指数 级 上 升 趋 势 。2015 年 以 后 ， 位 随 着 数据 处 
理 能 力 的 飞速 提高 ， 人 工 智 能 对 社会 开始 深度 介入 ， 世 界 正 在 走 同 人 工 
智能 时 代 。 整 体 而 论 ， 人 类 在 进入 21 世 纪 的 三 个 关键 时 期 ， 相 继 出 现 了 
三 个 互相 联系 又 略 有 区 别 的 新 时 代 ， 即 网 络 社会 时 代 、 大 数据 时 代 、 人 
工 智能 时 代 ， 三 者 共同 构成 了 新 的 社会 时 代 ， 我 们 将 这 种 新 的 社会 时 代 
称 为 “< 人 脑 + 电 脑 * 的 “ 云 脑 时 代 ”。 


云 脑 时 代 ， 人 工 智能 作为 研究 、 开 发 用 于 模拟 、 延 伸 和 扩展 人 的 智 
能 的 理论 、 方 法 、 技 术 及 应 用 系统 的 一 门 新 的 技术 科学 ， 旨 在 了 解 智能 
的 实质 ， 并 生产 出 一 种 新 的 能 以 人 类 智能 相似 方式 做 出 反应 的 智能 机 
器 ， 其 研 完 领 域 包括 机 器 人 、 语 音 识 别 、 图 像 识别 、 目 然 语言 处 理 、 专 
家 系统 等 。 这 一 技术 科学 将 改变 其 全 颠 履 人 类 现存 的 生产 工作 和 交往 方 
式 ， 由 此 出 现 一 个 以 新 技术 结构 文 撑 新 社会 结构 的 人 类 新 时 代 。 


云 脑 时 代 ， 智 能 革命 无 疑 将 给 我 们 带 来 一 个 更 美好 的 社会 ， 它 是 智 
能 的 、 精 细 化 的 、 人 性 化 的 “最 好 时 代 ”。 在 云 计 算 、 大 数据 、 深 度 学 习 
算法 、 人 脑 爷 片 的 催化 下 ， 人 工 重 能 模拟 和 表现 出 人 类 的 智 意 动 力 ， 并 


以 高 于 人 类 的 工作 速度 、 优 于 人 类 的 工作 精度 、 胜 于 人 类 的 工作 态度 ， 
协助 人 类 解决 各 种 各 样 的 问题 ， 包 括 危 险 场 合 和 极端 环境 下 的 难题 ， 从 
而 形成 人 类 智慧 的 创造 力 优势 与 人 工 智 能 的 操作 性 优势 之 间 的 强 强 合 
作 。 人 工 智 能 现 已 成 为 全 球 新 一 轮 革 命 和 产业 变革 的 着 力 点 ， 在 人 类 智 
慧 能 力 无 穷 增 大 的 “科学 梦 ” 背 后 ， 是 一 片 列 藏 无 限 生 机 的 产业 “新 赣 
海 "»。 社 会 正在 从 “互联 网 +” 向 “人 工 智 能 +” 转 型 ， 传 统领 域 生 发 出 新 的 
产业 形态 ， 多 领域 催生 了 新 兴 的 细 分 行业 ， 由 此 创造 出 巨大 的 经 济 价 值 
和 社会 财富 。 


在 谷歌 、Facebook、IBM 等 领军 企业 的 带领 下 ， 全 球 对 人 工 智能 的 
关注 度 不 断 提升 。2015 年 全 球 人 工 智 能 市 场 规模 为 1 683 亿 元 ， 预 计 到 
2018 年 将 增 至 2 697 亿 元 ， 增 长 率 达 到 17%。 在 投资 规模 方面 ，2015 年 为 
484 亿 元 ， 预 计 到 2020 年 ， 投 资 总 量 将 达到 1 190 亿 元 。 可 以 认为 ， 人 工 
智能 将 从 专业 性 较 强 的 领域 逐步 拓展 到 社会 生活 的 各 个 方面 ， 人 类 未 来 
会 在 “万 物 皆 互联 、 无 处 不 计算 ”的 环境 下 精准 生活 。 但 另 一 方面 ， 智 能 
革命 也 将 给 我 们 带 来 诸多 麻烦 ， 也 许 我 们 面临 着 一 个 社会 问题 从 生 和 安 
全 隐患 不 断 的 “最 坏 时 代 *。 到 目前 为 止 ， 人工 智 能 已 在 全 球 范围 内 逐步 
建立 起 自己 的 生态 格局 ， 并 开始 深度 介入 人 类 的 社会 生活 。2016 年 ， 距 
离 麦 卡 锡 、 明 斯 基 、 香 农 等 人 提出 人 工 智能 的 概念 正好 过 去 60 年 。 过 去 
的 一 年 ， 人 们 看 到 了 许多 存在 于 科 约 小 说 的 内 容 成 为 现实 : 人 工 智能 
败 了 人 类 顶尖 棋 手 ， 自 动 轨 驶 汽车 技术 日 趋 成 熟 ， 生 产 线 上 活跃 着 “机 
器 人 ”群体 .….... 这 些 正印 证 了 “智能 时 代 ， 未 来 已 来 "。 人 们 在 为 人 工 智 
能 的 强大 能 力 感到 惊叹 的 同时 ， 也 激发 了 对 人 工 智 能 安全 问题 的 普遍 忧 
虑 ， 人 工 智能 是 否 成 为 人 类 “最 后 的 发 明 ”? 我 们 应 如 何 看 待人 工 智 能 的 
潜在 风险 ?" 坟 


人 工 智 能 的 首要 问题 是 安全 问题 。 从 时 间 向 度 来 说 ， 人 工 智 能 风险 
是 社会 历史 性 的 存在 ， 是 指向 未 来 的 将 来 时 态 的 词汇 ， 风 险 对 人 类 的 影 
啊 是 不 能 用 自然 科学 的 数据 标准 来 评定 的 ， 从 现存 状况 看 也 许 只 影响 一 
代 人 的 生存 ， 但 事实 上 可 能 损害 儿 代 人 的 利益 。 从 空间 同 度 来 说 ， 风 险 


是 “全 球 地 区 性 的 ”， 也 就 是 说 风险 既是 地 区 性 的 ， 又 是 全 球 性 的 。 人 工 
条 


灸 能 按 实 力 可 分 为 弱 人 工 智 能、 强人 工 智 能、 超级 人 工 智 能 ， 那 么 人 工 
智能 风险 可 能 造成 的 后 果 也 可 分 为 三 个 层次 ， 即 短期 危害 、 中 期 危害 、 


长 期 危害 。 


短期 : 失业 、 隐 私 破坏 、 技 术 依赖 。 人 工 智 能 风险 的 短期 危害 已 经 
出 现在 我 们 面前 了 。 在 失业 问题 上 ， 很 多 工厂 里 都 大 量 采用 了 弱 人 工 智 
能 机 髓 ， 致 使 很 多 监 领 工 人 和 下 层 的 日 领 失去 工作 岗位 。 如 今 ， 人 工 智 
能 己 经 在 制造 、 医 疗 等 行业 扮演 着 非 党 重要 的 角色 。 人 工 智 能 可 以 提高 
生产 力 ， 但 目前 我 们 不 能 摆脱 基于 劳力 一 工资 的 经 济 模式 ， 人 工 智 能 带 
来 的 失业 问题 我 们 很 难 解决 ; 在 隐私 安全 上 ， 随 独 智 能 机 器 不 断 渗透 到 
日 第 生活 中 ， 人 工 智 能 接触 个 人 隐私 的 机 会 越 来 越 多 ， 保 障 隐 私 安全 变 
成 一 项 难题 。 比 如 我 们 使 用 的 浏览 右 ， 它 会 记录 个 人 经 季 访 问 的 网 站 名 
称 并且 进 行 排序 ， 在 下 一 次 使 用 时 会 优先 提示 这 些 网 站 的 地 址 ， 那 么 这 
些 记录 会 完全 保密 吗 ? 谁 又 能 给 我 们 提供 保证 呢 ? 事实 上 ， 这 些 智能 软 
件 在 充当 “智能 窟 家 ”的 同时 也 扮演 看 偷盗 者 的 角色 ; 在 技术 依赖 上 ， 人 
工 智能 技术 可 以 帮助 人 市 省 脑力 和 体力 劳动 ， 并 且 在 一 定 程 度 上 提 蜗 效 
率 和 安全 保障 性 ， 但 长 此 以 往 ， 人 类 必 将 缺乏 在 身体 工作 技能 和 逻辑 思 
维 能 力 上 的 培养 和 训练 ， 转 而 过 度 依赖 人 工 智 能 技术 的 功效 ， 如 此 一 
来 ， 必 然 会 造成 人 本 质 力量 的 削弱 和 精神 空虚 。 一 个 突出 的 现象 融 
征 “低头 族 ”， 即 使 面对面 ， 人 们 也 各 上 自 采 着手 机 屏幕 ， 宁 愿 节 打 着 冰冷 
的 屏 硕 ， 也 不 愿 和 热情 的 杀 友 促膝 长 谈 。 


中 期 : 威胁 公众 安全 问题 、 加 剧 社会 不 平等 。 埃 吕 尔 曾 说 :“ 在 劳 
动 领域 ， 当 前 的 技术 进步 已 极 大 地 市 省 了 体力 付出 。 但 与 此 同时 ， 这 种 
进步 在 精神 方面 要 求 越 来 越 蜗 ， 以 至 精神 上 的 紧张 、 疲 劳 和 骨 尝 反而 增 
加 了 。” 三 人 工 智 能 技术 也 是 如 此 。 在 公众 安全 上 ， 人 工 智能 技术 的 发 
展 给 人 们 提供 了 很 多 有 效 的 实用 性 工具 ， 以 专家 系统 为 例 ， 它 应 用 人 工 
智能 技术 ， 根 据 茶 领 域 一 个 或 多 个 专家 提供 的 知识 和 经 验 ， 进 行 推理 和 
判断 ， 模 拟人 类 专家 的 决策 过 程 ， 以 解决 那些 需要 人 类 专家 处 理 的 复杂 


问题 。 例 如 编写 一 个 医疗 专家 系统 ， 它 的 诊断 水 准 可 以 达到 国内 外 顶级 
医生 的 水 平 ， 但 是 专家 系统 并 不 是 完美 的 ， 茶 个 领域 的 专业 水 平 随 着 不 
同 历史 时 期 的 更 迭 而 不 断 更 新 关 ， 而 专家 系统 受制 于 设计 者 的 局 限 ， 其 
内 部 结构 的 更 新 总 会 出 现 一 定 的 滞后 性 。 一 旦 医疗 专家 系统 与 网 络 连接 
起 来 得 到 普及 ， 而 人 们 又 对 其 过 分 依赖 ， 这 不 仅仅 会 导致 医疗 事故 的 发 
生 ， 更 有 可 能 对 公众 安全 产生 威胁 ， 如 有 果 被 不 法 分 子 利用 ， 后 果 将 更 加 
严重 ;在 社会 效益 分 配 问题 上 ， 人 工 智 能 风险 与 财富 一 样 ， 都 是 附着 在 
阶级 模式 上 ， 但 以 题 倒 的 方式 附着 ， 财 富 在 上 层 聚 集 ， 而 人 工 智 能 风险 
在 下 层 聚 集 。 束 此 而 言 ， 贫 穷 导致 了 大 量 的 风险 ， 相 反 ，“ 收 入 、 权 力 
和 教育 上 的 ) 财富 可 以 购买 安全 和 规避 风险 的 特权 ， 任 何 一 个 人 只 要 手 
头 有 长 期 银行 存 扩 ， 就 可 以 免 受 失 业 的 恐 惰 甚 至 可 以 巩固 目 身 利益 ， 人 
工 智能 风险 实际 上 加 剧 了 社会 的 不 平等 。 


长 期 : 消解 人 类 主体 地 位 。 从 中 期 看 ， 人 工 智 能 风险 有 威胁 公众 安 
全 和 加 剧 社 会 不 平等 问题 ， 但 人工 智 能 还 有 更 长 远 的 危害 ， 那 就 是 消解 
人 类 主体 地 位 。“ 有 了 人 ， 我 们 就 有 了 历史 ”,， “全 部 人 类 历史 的 第 一 个 
前 提 无 疑 是 有 生命 的 个 人 的 存在 ”="， 所 以 ， 人 是 社会 的 主体 ， 人 具有 
主体 性 ， 社 会 历史 发 展 表 明正 因为 人 是 唯一 有 思想 会 创造 的 高 等 动物 才 
保证 其 主体 性 。 然 而 这 种 特性 正在 慢 慢 被 人 工 智能 打破 ， 人 类 的 主体 地 
位 将 被 消解 。 以 人 工 乔 能 机 器 人 为 例 ， 其 外 表 越 来 越 痪 真 ， 甚 至 在 不 刻 
意 观 察 时 完全 能 够 以 假 乱 真 ， 更 为 重要 的 是 ， 机 器 人 已 经 具备 了 一 定 的 
智能 程度 ， 在 一 定 场景 中 让 人 们 在 相当 长 的 一 段 时 间 里 党 得 它 就 是 一 个 
活生生 的 人 。 试 想 当 我 们 生活 中 这 样 的 机 器 人 越 来 越 多 时 ， 所 有 的 事情 
都 由 人 工 智 能 代 答 完成 了 ， 人 类 活着 有 意义 吗 ? 人 们 很 快 束 变 成 一 个 个 
寄生 虫 ， 人 类 这 个 群体 就 会 在 智能 和 体能 上 急剧 衰退 ， 像 虫子 一 样 在 一 
个 舒适 的 环境 里 活着 ， 这 样 每 个 个 体 都 变 得 没有 生活 意义 的 时 候 ， 和 群体 
的 主体 地 位 将 会 被 消解 ， 最 终 走 癌 灭 亡 。 


所 以 ， 无 论 是 从 短期 、 中 期 、 长 期 看 ， 人 工 智能 风险 带 来 的 后 果 可 
能 都 是 极度 您 怖 的 。 我 们 应 该 针对 这 些 可 能 出 现 的 一 系列 危害 ， 通 过 开 


展 重 点 研究 其 产生 根源 来 寻找 解决 方法 。 


(二 ) 区 块 链 与 秩序 互联 网 


人 工 智 能 风险 的 凸显 ， 引 起 了 人 们 的 高 度 关 注 。 人 工 智 能 风险 问题 
不 仅 是 人 类 遭遇 的 现实 困境 ， 也 应 该 引起 人 类 对 这 种 困境 的 自觉 反思 。 
对 这 一 问题 的 研究 只 有 站 在 哲学 的 高 度 ， 才 能 更 深刻 地 考察 人 工 镶 能 风 
险 的 起 因 ， 更 清楚 地 审视 人 工 智 能 技术 活动 模式 万 至 人 类 思维 方式 对 当 
今 人 工 留 能 风险 大 规模 滋生 的 决定 性 影响 ， 从 而 促进 入 类 对 技术 活动 及 
展 的 理性 自觉 。 中 国 哲 学 讲究 阴阳 转换 ， 否 极 泰 来 ， 世 界 万 物 无 不 如 
此 。 同 样 ， 统 一 、 对 立 和 互 化 ， 是 分 析 人 工 智 能 风险 、 理 解 当今 人 工 知 
能 技术 活动 的 科学 方法 。 


区 块 链 的 兴起 正 是 中 国 哲 学 的 阴阳 平衡 思想 的 最 佳 体现 。 与 国外 区 
块 链 研 究 者 、 应 用 者 不 同 ， 我 们 认为 区 块 链 不 是 云 计 算 、 大 数据 中 心 化 
的 蔡 代 ， 而 是 补充 和 平衡 。 正 如 阴 在 阳 之 内 ， 不 在 阳 之 对 。 区 块 链 技术 
源 于 化 名 为 “中 本 聪 2 的 学 者 在 2008 年 发 表 的 珊 基 性 论文 《比特 币 : 一 种 
扩 对 扩 电 子 现 金 系统 》。 区 块 链 是 指 通 过 去 中 心 化 和 去 信任 的 方式 集体 
维护 一 个 可 靠 数据 库 的 技术 方案 。 该 技术 方案 让 参与 系统 的 任意 多 个 节 
点 ， 把 一 段 时 间 系 统 内 全 部 信息 交流 的 数据 ， 通 过 密码 学 算法 计算 和 记 
录 到 一 个 数据 块 ， 并 且 生 成 该 数据 块 的 指纹 用 于 链接 下 一 个 数据 块 和 校 
验 ， 系 统 所 有 参与 季 扣 来 共同 认定 记录 是 否 为 真 。 区 块 链 技术 具有 去 中 
心 化 、 去 信任 、 安 全 性 高 等 特点 ， 被 认为 是 继 大 型 机 、 个 人 电脑 、 互 联 
网 之 后 计算 模式 的 丰 履 式 创新 ， 很 可 能 在 全 球 范 围 内 引起 一 场 新 的 拉 术 
革新 和 产业 变 音 。 


去 中 心 化 。 区 块 链 去 中 心 化 的 特征 意味 着 区 块 链 不 再 依赖 中 央 处 理 
而 点 的 情况 下 ， 实 现 了 数据 的 分 布 式 记录 、 人 存储 和 更 新 。 区 块 链 的 设想 
是 由 不 同 的 节点 共同 组 成 的 一 个 点 对 点 网 络 ， 不 设置 中 心 化 的 管理 市 点 


或 机 构 ， 在 该 网 络 中 ， 各 个 节点 之 间 的 权利 和 义务 都 是 均等 的 ， 即 该 系 
统 中 的 所 有 市 点 都 可 以 进行 记录 及 校 验 ， 然 后 通过 分 布 式 的 传播 方式 把 
计算 所 得 出 的 数据 结果 分 别 发 给 各 个 节点 ， 即 使 部 分 节点 被 损坏 ， 整 个 
系统 的 运作 也 不 会 受到 影响 ， 也 就 是 说 每 个 参与 其 中 的 节点 都 是 “上 自 中 


去 信用 化 。 区 块 链 最 大 的 颠覆 性 在 于 新 的 信用 形成 机 制 。 在 传统 的 
互联 网 模式 中 ， 陌 生 人 之 间 是 通过 可 信任 的 第 三 方 机 构 来 建立 信用 和 进 
行 交 易 ， 而 区 块 链 从 根本 上 改变 了 中 心 化 的 信用 创建 方式 ， 它 运用 一 套 
基于 共识 的 数学 算法 ， 在 机 器 之 间 建 立 “ 信 任 ” 网 络 ， 从 而 通过 技术 来 建 
立信 用 ， 而 不 是 通过 中 心 化 的 第 三 方 平 台 。 和 攒 借 其 去 信用 化 的 机 制 ， 参 
与 方 无 须 清楚 相关 交易 方 是 谁 ， 更 不 需要 通过 第 三 方 来 进行 背书 与 担 
保 ， 只 需要 信任 区 块 链 的 共同 算法 便 可 ， 算 法 为 参与 者 创造 信用 、 产 生 
信任 和 达成 共识 提供 了 保障 。 


智能 合约 。 智 能 合约 是 一 种 用 计算 机 语言 取代 法 律 语言 记录 条 球 的 
合约 。 智 能 合约 可 以 由 一 个 计算 系统 自动 执行 。 如 果 区 块 链 是 一 个 数据 
库 ， 智 能 合约 就 是 能 够 使 区 块 链 技术 应 用 到 现实 当中 的 应 用 层 。 传 统 意 
义 上 的 合同 一 般 与 执行 合同 内 容 的 计算 机 代码 没有 直接 联系 ， 纸 质 合 同 
在 大 多 数 情 况 下 是 被 存档 的 ， 而 软件 会 执行 用 计算 机 代码 形式 编写 的 合 
同 条 丈 。 乔 能 合约 的 潜在 好 处 是 降低 签订 合约 、 执 行 和 监管 的 成 本 。 因 
此 ， 对 很 多 有 着 低 价值 交易 特点 的 合约 来 说 ， 使 用 智能 合约 便 能 极 大 地 
降低 人 力 成 本 。 二 


分 布 式 账本 。 分 布 式 账本 是 一 个 允许 用 户 在 多 个 接 入 点 和 地 理 位 置 
组 成 的 区 英 链 网 络 中 进行 点 对 点 交易 的 资产 数据 库 。 该 网 络 的 参与 者 可 
以 获得 一 个 由 共识 协议 生成 的 真实 账本 的 副本 且 这 一 副本 具有 唯一 性 。 
账本 中 的 任何 一 个 改动 都 需要 经 全 体 接 入 网 络 的 用 户 进行 多 数 确认 后 才 
会 被 记录 ， 而 账本 中 的 记录 变化 会 体现 在 任何 一 个 对 应 的 副本 中 ， 一 般 
情况 下 完成 这 一 过 程 通 常 只 需要 数秒 或 至 多 几 分 钟 。 任 何 实体 资产 、 虚 


拟 资产 和 其 他 在 金融 和 法 律 上 加 以 定义 的 资产 都 可 以 使 用 分 布 式 账本 进 
行 存储 。 账 本 使 用 公 钥 、 私 钥 和 签名 来 控制 对 账本 资产 信息 的 访问 ， 从 
而 保证 了 账本 记录 的 安全 性 和 准确 性 ， 从 密码 学 的 角度 为 账本 加 上 了 保 
险 。 通 过 对 网 络 基 本 构成 元 系 知 能 合约 的 修改 和 定义 共识 机 制 ， 可 指定 
人 、 团 体 、 集 团 对 资产 进行 修改 的 权限 。 三 


不 可 自 改 。 区 块 链 是 基于 时 间 惟 形成 的 不 可 自 改 、 不 可 伪造 的 数据 
库 。 区 块 〈 完 整 历史 ) 与 链 (完整 验证 ) 相 加 便 形 成 了 时 间 惟 《可 退 漳 
完整 历史 ) 。 时 间 惟 存储 了 网 络 中 所 有 已 经 执行 过 的 交易 历史 ， 并 可 所 
供 检索 和 查找 交易 数据 的 功能 ， 男 外 会 借助 区 块 链 自 喘 的 组 织 染 构 对 其 
历史 交易 数据 进行 妃 溯 及 验证 。 每 个 市 皮 在 记录 时 会 生成 区 块 并 在 其 上 
加 兰 时 间 戳 ， 并 对 全 网 所 有 节点 进行 播放 ， 让 各 参与 节点 都 能 获得 一 份 
完整 的 交易 数据 拷贝 。 一 旦 信息 经 过 验证 添加 到 区 块 链 上 ， 就 会 永久 地 
存储 起 来 。 如 果 想 要 算 改 历史 信息 ， 必 须 同时 控制 整个 系统 中 超过 51% 
的 节点 。 因 此 区 块 链 技术 被 认为 是 可 靠 性 很 高 的 数据 技术 ， 且 系统 中 参 
与 交易 的 节点 越 多 、 计 算 能 力 越 强 ， 其 数据 的 安全 性 越 高 。 


(三 ) 区 块 链 重 塑 人 工 智能 时 代 新 生态 


“社会 不 是 坚实 的 结晶 体 ， 而 是 一 个 能 够 变化 并 且 经 常 处 于 变化 过 
程 中 的 机 体 。” 三 当今 ， 信 息 扩 术 正 以 前 所 未 有 的 广度 和 深度 塑造 这 个 
社会 的 特征 与 面 狐 ， 塑 造 社会 成 为 一 个 新 的 有 机 体 。 人 类 对 技术 的 关注 
与 其 对 自身 生存 的 关注 几乎 是 同等 重要 的 对 待 ， 就 像 有 的 学 者 所 
:“ 你 如 何 理 解 人 ， 你 束 会 如 何 理 解 搁 术 ; 你 怎么 看 等 拉 术 ， 你 束 会 
么 看 得 人 ”。" 三 作为 信息 技术 体系 的 一 部 分 ， 区 块 链 不 可 否认 地 促进 
人 工 智能 的 创新 。 区 块 链 和 和 人工 智 能 这 两 种 技术 的 复杂 程度 不 一 样 ， 
业 


意义 也 不 一 样 ， 但 是 如 果 能 将 两 者 整合 在 一 起 ， 那 么 整个 技术 和 人 


主 
念 愉 
了 

商 、 
类 范式 可 能 将 会 重新 定义 。 


从 认识 论 的 角度 出 发 ， 区 块 链 技术 将 会 连接 虚拟 与 现实 世界 ， 成 
为 “虚拟 世界 一 现实 世界 中间 的 链 酉 ， 且 该 技术 带 来 的 影响 将 会 是 车 命 
性 的 ， 而 “革命 ”的 核心 是 虚拟 世界 的 “ 球 籍 ?。 无 论 何 种 事物 ， 个 人 也 
， 集 体 也 轻 ， 丝 存在 于 现实 世界 ， 且 至 少 可 以 “我 思 故 我 在 "。 相 反 
， 随 独占 比 越 大 的 现实 世界 移 到 虚拟 世界 ， 虚 拟 世 界 的 权重 便 逐 渐 增 
， 不 参加 者 将 被 边缘 化 。 软 件 定 义 一 切 势 在 必 行 ， 定 义 数据 ， 定 义 功 
能 ， 定 义 机 器 ， 定 义 过 程 ， 定 义 规 则 ， 定 义 网 络 ， 定 义 虚拟 的 数字 世 
界 ， 可 谓 是 定义 了 可 以 定义 的 一 切 。 三 区 块 链 从 抽象 的 角度 来 审视 ， 是 
利用 分 布 式 技术 和 共识 算法 重新 构造 的 一 种 信任 机 制 ， 存 在 于 虚拟 世 
界 。 从 根本 上 来 说 ， 区 块 链 技术 的 影响 在 于 给 出 了 这 样 一 个 信号 : 重 构 
虚拟 世界 与 现实 世界 的 关系 ， 其 核心 是 改造 现实 世界 ， 提 升 现实 世界 的 
有 序 度 。 不 过 ， 吕 万 基 同 时 也 指出 ， 并 非 现 实 世 界 的 一 切 缘 能 迁移 到 虚 
拟 世 界 。 这 样 的 情况 大 致 可 分 为 下 列 几 种 。 其 一 ， 难 度 大 而 一 时 移 不 过 
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去 ， 例 如 茶 些 久远 年 代 部 落 中 的 “绝技 ”。 其 二 ， 菏 些 知 识 因 产权 归属 的 
原因 而 不 被 允许 或 只 能 部 分 移 至 虚拟 世界 。 其 三 ， 因 种 种 因素 如 权力 的 


干预 、 情 感 的 渗透 等 而 成 为 个 案 以 及 不 知 所 云 的 “精神 交情 ?等 ， 因 无 法 
经 过 编程 而 被 屏蔽 于 虚拟 世界 之 外 。 其 四 ， 现 实 世 界 拒绝 虚拟 世界 的 介 
入 ， 璧 如 菏 个 国家 拒绝 另外 一 个 国家 的 相关 网 站 的 链接 。 这 些 移 不 过 去 
的 部 分 ， 哪 怕 再 有 价值 ， 传 播 的 力度 再 大 ， 也 难以 逾越 现实 世界 中 形 形 
色色 的 壁垒 ， 也 有 可 能 “ 死 ?在 “最 后 一 公里 "。 三 在 吕 乃 基 看 来 ， 现 实 世 
界 在 虚拟 世界 重 构 ， 虚 拟 世 界 不 是 现实 世界 简单 的 “映射 ” 投 喘 ”， 而 是 
选择 性 重 构 。 这 种 “选择 "， 在 茶 种 意义 上 可 以 说 是 一 场 “ 没 有 硝烟 的 章 


“区 块 + 链 + 时 间 截 ”可谓 是 区 块 链 数据 库 的 最 大 创新 点 ， 每 一 个 区 块 
都 兰 上 一 个 “时 间 戳 ?来 记 账 ， 从 而 形成 不 可 自 改 、 无 法 伪造 的 数据 库 。 
对 人 工 乔 能 发 展 产生 以 下 几 条 颠 履 性 的 影响 。 


帮助 人 工 智能 解释 自己 。 人 工 智能 黑 盒 遵 遇 了 可 解释 性 的 问题 。 有 
一 个 清晰 的 审计 跟 踩 不 仅 可 以 提高 数据 的 可 信 性 ， 还 可 以 提高 模型 的 可 


信 度 ， 也 为 追 调 机 器 决策 过 程 提 供 了 一 条 清晰 的 途径 。 


提高 人 工 智能 的 有 效 性 。 安 全 的 数据 共享 意味 着 更 多 的 数据 和 更 多 
的 训练 数据 ， 然 后 会 形成 更 好 的 模型 ， 更 好 的 行动 ， 更 好 的 结果 以 及 更 
好 的 新 数据 。 到 头 来 网 络 效应 是 最 重要 的 东西 。 


降低 市 场 的 准 入 障碍 。 区 块 链 技术 可 以 保护 你 的 数据 。 那 么 你 为 什 
么 不 能 私下 存储 你 所 有 的 数据 ， 或 者 出 售 这 些 数据 呢 ? 你 也 许 会 这 么 
做 。 那 么 首先 ， 区 块 链 将 促进 更 干涩、 更 有 组 织 的 个 人 数据 的 建立 。 其 
次 ， 区 块 链 会 促进 新 市 场 的 出 现 ， 比 如 数据 市 场 、 模 型 市 场 ， 甚 至 可 能 
还 会 出 现 人 工 重 能 市 场 。 因 此 ， 简 单 的 数据 共享 和 新 的 市 场 ， 再 加 上 区 
块 链 数据 验证 一 起 ， 这 些 将 提供 更 加 顺畅 的 集成 ， 从 而 降低 小 企业 的 进 
入 门槛 ， 缩 小 科技 巨头 的 竞争 优势 。 在 降低 进入 门槛 的 努力 中 ， 我 们 实 
际 上 解决 了 两 个 问题 ， 即 提供 更 广泛 的 数据 访问 以 及 更 有 效 的 数据 货 
化 机 制 。 


增加 对 人 工 的 信任 。 一 旦 我 们 的 部 分 任务 交 给 自动 虚拟 代理 来 管 
理 ， 清 晰 的 审计 跟踪 将 可 以 帮助 机 器 人 相互 信任 ， 并 且 帮 助人 类 去 信任 
它们 。 在 有 了 分 项 数据 以 及 协调 决策 ， 再 加 上 有 健全 的 机 制 到 达 法 定 人 
数 〈 与 群体 机 器 人 和 多 代理 场景 高 度 相 关 ) 的 安全 手段 之 后 ， 节 终 还 将 
增加 机 需 与 机 器 之 间 的 交互 和 交易 。 


减少 灾难 性 风险 的 情况 。 加 入 智能 合约 的 人 工 知 能 只 能 执行 预先 被 
写 入 代码 的 动作 ， 而 这 些 动作 会 被 代码 刚性 约束 ， 不 受 情感 、 关 系 、 人 
脉 等 的 影响 ， 避 开 现 实生 活 中 “熟人 社会 ”的 关系 操作 ， 这 些 代码 也 可 以 
写 入 法 律 、 伦 理 、 道 德 ， 进 而 使 人 工 智能 也 受 法 律 、 道 德 的 约束 ， 那 么 
人 工 智能 机 器 的 行动 空间 也 是 合法 的 。 
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下 二 人 
数 权 法 与 数字 文明 新 时 代 


(一 ) 云 脑 时 代 的 制度 安排 与 法 律 规制 


人 类 社会 的 文明 演化 在 新 世纪 呈现 出 加 速 及 展 的 态势 ， 互 联网 科技 
的 普及 催化 了 社会 结构 的 重组 ， 人 类 自 此 开局 了 有 别 于 以 往 的 网 络 社会 
时 代 。 整 体 而 论 ， 到 21 世 纪 相继 出 现 了 互相 联系 又 略 有 区 别 的 新 时 代 ， 
即 网 络 社会 时 代 、 大 数据 时 代 、 人 工 智 能 时 代 、 云 脑 时 代 ， 他 们 共同 构 
成 了 新 的 社会 时 代 。 云 脑 时 代 ， 数 据 成 了 变量 ， 同 时 也 是 推动 生产 和 生 
活 方式 根本 变革 的 核心 力量 。 马 云 在 2017 年 第 四 届 世 界 互联 网 大 会 上 的 
演讲 中 说 :“ 互 联网 正在 深入 社会 ， 超 过 未 来 一 切 扩 术 间 命 的 上 总和。 未 
来 30 年 数据 将 成 为 生产 资料 ， 计 算是 生产 力 ， 互 联网 是 一 种 生产 关系 。 
如 采 我 们 不 数据 化 ， 不 和 互联 网 相连 ， 那 么 会 比 过 去 30 年 不 通电 显得 更 
为 可 怕 。 二 


“这 是 最 好 的 时 代 ， 也 是 最 坏 的 时 代 。” 一 方面 ， 随 着 人 工 智能 发 
展 ， 数 据 作为 生产 资料 的 价值 将 会 逐步 在 社会 生活 的 各 个 方面 凸 最， 人 
类 未 来 会 在 “万 物 皆 互联 、 无 处 不 计算 ”的 环境 下 精准 生活 。 男 一 方面 ， 
在 数据 领域 ， 由 于 法 律 约束 和 制度 规范 欠缺 ， 人 工 知 能 带 来 隐私 数据 汇 
露 、 真 假 数据 混杂 等 诸多 麻烦 ， 也 许 我 们 也 面临 着 一 个 社会 问题 从 生 和 
安全 隐患 不 断 的 “最 坏 时 代 ”。 数 据 改 变 了 人 类 社会 的 沟通 和 认 知 方式 ， 
未 来 所 有 的 人 和 物 都 将 作为 一 种 数据 而 存在 ， 作 为 一 种 数据 而 联系 ， 作 
为 一 种 数据 而 共同 创造 价值 。 三 在 大 数据 作用 下 ， 目 然 人 会 沉 化 为 数据 
化 的 人 ， 即 “数据 人 ”。 围 线 “ 数 据 人 ”会 产生 相关 法 律 天 系 ， 产 生 数 据 主 


权 、 数 据 权 利 等 。 这 里 的 数据 权利 并 非 一 套 独 立 的 权利 体系 ， 而 是 基于 
虚拟 空 : 间 产生 的 现行 立法 体系 无 法 调整 的 一 项 权利 而 已。 在 脱离 了 既 有 
权益 保 隐 体系 文 持 下 ， 数 据 纠纷 又 缺少 与 新 型 数据 处 理 行为 法 律 体系 的 
接口 ， 因 而 独立 成 为 一 种 新 型 纠纷 。 现 有 权利 体系 对 数据 的 保护 还 存在 
一 些 困 境 ， 下 面 主 要 从 人 格 权 学 说 、 隐 私 权 学 说 、 物 权 学 说 、 债 权 学 说 
以 及 知识 产权 学 说 这 5 个 方面 进行 说 明 。 


人 格 权 学 说 对 数据 保护 的 局 限 。 人 格 权 侧 重 保 护 数 据 个 人 精神 权 
利 ， 无 法 保护 数据 权 中 的 财产 权 。 根 据 传统 民法 理论 ， 人 人 格 权 是 一 项 纯 
粹 的 精神 性 权利 。 数 据 权 利 包 括 数据 人 格 权 和 数据 财产 权 ， 其 兼 重 保护 
个 人 的 精神 性 权利 和 财产 性 权利 。 数 据 权 利平 衡 的 是 数据 权利 主体 、 数 
据 处 理 者 、 数 据 利用 者 等 之 间 的 关系 ， 需 要 兼顾 数据 权利 主体 的 精神 性 
权益 和 财产 性 权益 ， 以 及 数据 处 理 者 、 数 据 利 用 者 等 的 财产 性 权益 


隐私 权 学 说 对 数据 保护 的 局 限 。 隐私 权 侧重 保护 个 人 隐私 数据 ， 但 
东 些 个 人 隐私 数据 可 能 存在 于 社会 公共 秩序 范畴 ， 这 部 分 数据 无 法 受到 
相应 的 保护 。 隐 私信 息 包 括 个 人 信息 、 个 人 活动 、 个 人 空间 等 ， 与 公众 
无 关 的 个 人 信息 不 会 同 社 会 公开 ， 属 于 私人 范畴 ; 个 人 数据 中 例如 公布 
于 众 的 姓名 、 电 话 、 地 址 等 数据 ， 或 者 茶 些 原本 融 属 于 社会 公共 秩序 范 
畴 的 数据 ， 这 部 分 的 数据 保护 受到 公共 利 普 的 限制 。 因 此 ， 对 个 人 数据 
而 言 ， 只 能 保证 茶 些 数据 是 处 于 保密 状态 ， 大 部 分 数据 仍然 是 非 保密 状 
态 。 同 时 ， 个 人 对 外 公开 的 数据 信息 经 过 技术 脱 敏 后 ， 增 加 了 隐私 利益 
的 复杂 性 。 个 人 无 法 通过 隐私 权限 制 他 人 使 用 作为 信息 载体 的 数据 ， 数 
据 所 包含 的 财产 利益 也 就 无 从 谈 起 。 因 此 ， 就 个 人 数据 处 理 而 言 ， 当 前 
的 隐私 法 能 给 个 人 数据 提供 的 保护 十 分 有 限 。 


物 权 学 说 对 数据 保护 的 局 限 。 物 权 法 侧重 保护 归属 明确 的 物体 ， 而 
数据 在 产生 到 形成 分 析 结 果 这 个 过 程 中 从 属 不 同 的 主体 ， 权 属 并 不 明 
确 ， 因 此 保护 范围 受 限 。 从 数 权 归 属 看 ， 物 权 学 说 偏 于 强调 控制 权 ， 使 
用 权 处 于 从 属地 位 。 个 人 仅 是 数据 产生 的 供 体 ， 离 开 数据 采集 者 的 网 络 


服务 与 技术 文 持 ， 数 据 根 本 无 法 产生 ， 其 所 承载 的 信息 上 自然 也 就 随 之 消 
失 。 二 “所 有 法 律 对 数据 秩序 的 权利 设计 或 利益 分 配 ， 都 需要 合适 的 代 
码 来 实现 。” 三 也 就 是 说 ， 个 人 对 个 人 数据 无 法 亩 有 完整 的 物 权 权 能 ， 

无 法 用 于 数据 交易 ， 无 法 通过 物 权 行使 数据 权利 。 这 说 明 物 权 学 说 在 数 
权 保 护 问题 上 面临 着 局 限 。 


债权 学 说 对 数据 保护 的 局 限 。 债 权 侧重 以 合同 关系 为 依据 对 虚拟 财 
产 进行 保护 ， 而 数据 债权 与 数据 债务 之 间 的 合同 关系 无 法 明晰 ， 因 此 无 
法 受到 保护 。 债 权 说 主要 利用 合同 法 对 虚拟 财产 进行 保护 。 在 数据 债权 
与 数据 债务 关系 中 ， 数 据 主体 与 数据 采集 者 之 间 可 能 存在 合同 关系 ， 但 
由 于 数据 权利 的 复杂 性 与 动态 性 ， 数 据 主 体 与 其 他 数据 利用 者 之 间 无 法 
建立 第 三 人 利益 合同 。 即 使 建立 了 利他 合同 关系 ， 基 于 利益 衡量 ， 数 据 
利用 者 作为 合同 提供 者 往往 将 数据 主体 应 有 的 权利 排除 在 外 。 对 于 合同 
关系 中 没有 明确 的 数据 权利 内 容 ， 数 据 权利 主体 没有 权利 依据 请 求 认 害 
权利 排除 条 球 无 效 。 合 同 主体 不 是 将 数据 看 作 一 种 特定 的 客体 ， 残 是 忽 
略 不 论 。 在 对 数据 的 认定 中 ， 数 据 的 法 律 地 位 并 没有 得 到 解决 。 这 使 得 
用 债权 债务 相关 条 于 保护 数据 权利 时 会 产生 一 系列 问题 。 


知识 产权 学 说 对 数据 保护 的 局 限 。 个 人 数据 并 不 属于 知识 产权 保护 
范畴 ， 因 此 不 能 对 其 进行 保护 。 目 前 还 没有 哪个 国家 将 个 人 数据 作为 一 
类 单独 的 知识 产权 加 以 保护 。 有 学 者 提出 应 将 个 人 数据 纳入 知识 产权 保 
护 的 范畴 ， 这 种 语 境 下 的 个 人 数据 权利 保护 路 径 是 站 在 数据 利用 者 的 角 
度 提 出 的 ， 并 非 针 对 数据 主体 的 应 然 权利 提出 的 保护 路 径 。 数 据 与 知识 
之 间 存 在 着 一 种 天 然 的 内 在 联系 ， 数 据 权 利 与 知识 产权 的 权利 属性 存在 
独 诺 多 相似 之 处 ， 同 时 ， 数 权 保护 是 为 了 在 促进 利用 的 同时 确保 开放 。 
如 此 看 来 ， 知 识 产 权 法 是 最 接近 数 权 保护 要 求 的 保护 体系 。 但 从 本 质 上 
说 ， 数 据 不 可 能 纳入 知识 产权 保护 的 法 律 体系 中 第 一 ， 数 据 没 有 独创 
性 ， 不 符合 知识 产权 保护 要 求 ;， 第 二 ， 数 据 权 利 可 重复 使 用 ， 数 据 生产 
者 对 数据 不 具备 绝对 控制 权 ， 不 满足 知识 产权 保护 要 求 ， 无 法 对 其 进行 
保护 。 


(二 ) 数 权 法 构建 数字 文明 新 秩序 


从 法 理 上 说 ， 法 律 系统 应 社会 需求 而 生 ， 并 随 看 社会 文明 程度 的 提 
升 而 不 断 改 进 和 更 新 。 人 类 社会 进入 云 脑 时 代 已 是 必然 ， 数 据 作 为 云 脑 
时 代 的 生产 资料 也 毋庸 置疑 ， 但 在 现 有 的 权利 体系 下 无 法 实现 对 数据 的 
规范 及 保护 ， 因 此 ， 数 权 法 的 重要 性 不 言 而 喻 。 社 会 文明 从 农耕 文明 演 
变 到 工业 文明 再 到 现在 的 数字 文明 ， 人 类 也 从 “君权 ” 物 权 ? 迈 癌 了 “ 数 
权 ? 时 代 ， 法 律 也 应 在 “人 法 ”“ 物 法 ”的 基础 上 增加 “ 数 法 ”， 以 期 形成 制度 
化 、 法 制 化 的 社会 治理 体系 应 对 未 来 社会 的 制度 调整 和 结构 调整 。 


“ 数 权 ”赋予 云 脑 时 代 公 民 新 权益 。 数 据 的 所 有 权 、 知 情 权 、 采 集 
权 、 保 存 权 、 使 用 权 、 隐 私 权 等 ， 构 成 了 每 个 公民 在 大 数据 时 代 的 新 权 
葵 。 在 性 质 上 ， 数 权 是 一 种 集 人 格 权 和 财产 权 为 一 体 的 综合 性 权利 ， 数 
权 主 体 在 持 有 人 格 权利 的 同时 也 悍 有 财产 权利 。 维 护 数据 主体 为 人 的 碍 
严 是 数据 人 格 权 的 核心 价值 观 ， 强 调 数据 主体 应 受到 的 尊重 ， 享 有 自由 
不 受 剥 村 、 和 名誉 不 受 侮 展 、 隐 私 不 航 颖 探 、 信 息 不 被 盗用 等 权利 。 除 此 
之 外 ， 数 据 的 价值 和 共 至 性 使 其 成 为 一 种 重要 的 社会 资源 ， 因 而 有 必要 
赋予 数据 财产 权 ， 保 护 数 据 财产 。 


数据 权 包 含 公 权 和 私 权 两 种 。 对 数据 权 的 权利 保护 是 一 个 宏观 的 概 
念 ， 可 分 为 公 权 视野 下 的 数据 国家 主权 和 私 权 视野 下 的 个 体 数 据 权 。 在 
我 国 ， 数 据 的 主体 多 样 ， 包 括 个 人 人、 法人、 公共 机 构 、 政 府 等 ， 所 以 数 
权 既 需要 公法 规制 ， 也 需要 私法 规制 : 其 一 ， 指 癌 公 权力 ， 即 以 国家 为 
中 心 构建 的 数据 权力 ， 它 是 以 数据 管理 权 和 数据 控制 权 为 核心 内 容 的 国 
家 数据 主权 ;其 二 ， 指 向 私 权 力 ， 即 以 个 人 为 中 心 构 建 的 数据 权利 ， 包 
括 数据 人 格 权 和 数据 财产 权 。 


“ 数 权 法 ”是 数 权 保护 的 新 规制 。 数 权 法 是 调整 数据 权 属 、 利 用 和 
保护 的 法 律 制 度 。 数 权 的 法 律 规制 主要 包括 数据 主权 、 个 人 数据 权 和 数 
据 共 诗 权 。 数 据 主 权 体 现 为 国家 对 其 政权 管辖 地 域内 的 数据 至 有 的 生 


成 、 传 播 、 管 理 、 控 制 、 利 用 和 保护 的 权利 ， 权 利 内 容 表 现 为 数据 管理 
权 和 数据 控制 权 。 个 人 数据 权 是 相对 于 公民 数据 采集 义务 而 形成 的 对 数 
据 利 用 的 权利 ， 这 种 权利 是 建立 在 数据 主权 之 下 的 ， 私 法 语 境 下 的 数据 
权利 即 个 人 数据 权 ， 主 要 包括 数据 人 格 权 和 数据 财产 权 。 数 据 人 格 权 包 
含 数据 知情 同意 权 、 数 据 修改 权 、 数 据 被 遗 筷 权 和 删除 权 三 个 方面 ， 数 
据 财 产权 包含 数据 采 和 集权、 数据 可 携 权 、 数 据 使 用 权 、 数 据 收益 权 四 个 
方面 。 数 据 共享 权 指 对 待 个 人 数据 信息 ， 在 某 些 领域 应 该 超越 私 权 观念 
而 将 其 作为 公共 物品 加 以 保护 和 规制 。 


当下 ， 在 数据 保护 方面 的 法 律 法 规 还 有 待 完善， 而 建 章 立 制 也 不 是 
在 短期 内 就 能 完成 的 。 对 数据 的 保护 核心 是 要 确认 数据 为 独立 的 法 律 关 
系 客体 ， 珊 定 构 建 数据 规则 的 制度 基础 。 通 过 对 数据 法 律 性 质 和 法 律 地 
位 的 明确 ， 数 据 成 为 一 种 独立 利益 而 受到 法 律 的 确认 和 保护 。 对 数据 进 
行 保护 的 目的 在 于 数据 的 自由 流通 、 数 据 的 合理 利用 这 两 大 利益 之 间 的 
平衡 。 一 方面 在 于 创设 规则 ， 确 认 数 据 之 上 的 权利 ;为 一 方面 在 于 创设 
和 搭建 数据 平台 ， 促 进 数 据 的 自由 流通 和 利用 。 


“ 数 法 ”指引 数字 文明 时 代 新 秩序 。 当 前， 我 们 正 处 在 一 个 前 所 未 
有 的 大 变革 、 大 转型 时 代 。 继 农耕 文明 、 工 业 文 明之 后 ， 人 类 构建 了 一 
个 帘 新 的 治理 形态 一 一 数字 秩 厅 ， 以 及 一 个 寅 新 的 文明 形态 一 一 数字 文 
明 。 这 一 次 的 文明 跃迁 像 一 场 风 暴 ， 水 涤 着 一 切 上 日 有 的 生态 和 秩序 ， 对 
社会 存在 与 发 展 形成 题 覆 性 的 改变 。 数 据 权利 化 思潮 空前 活跃 ， 数 据 的 
实时 流动 、 共 至 构成 了 一 个 数据 化 的 生态 圈 ， 数 据 力 与 数据 关系 影响 着 
社会 关系。 由 于 这 种 力量 的 相互 影响 ， 整 个 社会 生产 关系 被 打上 了 数据 
关系 的 烙印 ， 这 将 引发 整个 社会 发 展 模 式 和 利益 分 配 模式 的 前 所 未 有 的 
变 羊 和 重 构 。 物 权 法 的 确立 古 社会 文明 进步 的 标志 ， 在 人 类 进入 数字 文 
明 的 当下 ， 对 原 有 保护 规则 进行 必要 的 变通 是 无 法 阻挡 的 趋势 。 数 字 文 
明 时 代 ， 绝 大 多 数 的 法 律 规 范 都 将 发 生根 本 性 变化 。 而 且 ， 数 字 文明 所 
影响 的 远 不 止 法 律 ， 而 是 对 整个 社会 的 政治 、 经 济 、 文 化 、 科 技 等 各 领 
域 的 全 面 改造 。 数 字 文 明 带 来 的 不 仪 仪 是 新 知识 、 新 技术 、 新 视野 ， 它 


还 将 革新 人 类 的 世界 观 、 价 值 观 和 方法 论 。 数 权 法 是 文明 跃迁 的 产物 ， 
也 将 是 人 类 从 工业 文明 向 数字 文明 变革 的 新 秩序 。 


(三 ) 构建 网 络 空间 人 类 命运 共同 体 


秩序 是 文明 的 关键 词 ， 文 明 是 产生 剩余 秩序 输出 的 能 力 。 文 明 的 索 
宋 是 消耗 秩序 生产 力 的 结果 。 原 始 部 落 秩序 大 体 是 目 给 自足 的 ， 随 独 秩 
序 生 产 力 的 升级 而 产生 文明 ， 最 终 进入 文明 社会 。 数 权 法 的 提出 为 云 脑 
时 代 创 建 了 一 种 新 的 社会 秩序 ， 秩 序 生产 力 的 升级 催生 了 新 一 轮 的 社会 
文明 一 一 数字 文明 。 当 前 ， 世 界 互联 网 呈现 新 的 发 展 趋势 ， 以 信息 技术 
为 代表 的 突破 众生 新 一 轮 科技 革命 和 产业 革命 。 但 同时 ， 在 互联 网 时 
代 ， 人 类 也 面临 着 很 多 的 不 确定 性 ， 旧 制度 与 数字 革命 的 博 蛮 仍 在 进 
行 ， 追 求 集体 利益 取代 退 求 个 人 利益 ， 构 建 网 络 空 间 人 类 命运 共同 体 成 
为 这 个 时 代 的 共性 命题 。 数 字 文 明 使 得 全 球 大 规模 协作 成 为 可 能 ， 网 络 
空间 人 类 命运 共同 体 大 门 得 以 开启 。 


数字 文明 的 核心 价值 是 实现 人 的 全 面 自由 发 展 。 马 元 思 的 “个 人 全 
面 发 展 ?学 说 认为 ， 每 个 人 的 智力 、 体 力 在 社会 生产 过 程 中 尽 可 能 多 方 
面 地 、 充 分 地 、 目 由 地 、 和 谐 地 发 展 ， 最 根本 的 是 个 人 丈 动 力 的 全 面 发 
展 ， 成 为 各 方面 都 有 能 力 的 人 ， 即 能 通晓 整个 生产 系统 的 人 。 人 的 全 面 
自由 发 展 学 说 建立 在 “类 ”哲学 的 基础 上 ,“ 类 ”哲学 是 以 人 为 核心 的 理 
论 ， 探 完 人 的 本 质问 题 、 存 在 问题 以 及 人 的 目 身 发 展 问题 ， 从 根本 上 为 
人 的 上 自我 认识 和 解读 提供 了 人 性 根据 。 马 克 思 在 《1844 年 经 济 学 哲学 手 
稿 》 中 指出 “类 本 质 ” 为 : “通过 实践 创造 对 象 世 界 ， 改 造 无 机 界 ， 人 证 
明 目 己 是 有 意识 的 类 存在 物 ， 婚 是 说 是 这 样 一 种 存在 物 ， 它 把 类 看 作 目 
己 的 本 质 ， 或 者 说 把 目 身 看 作 类 存在 物 。” 三 急死 思 从 人 的 实践 活动 、 
从 在 现实 的 社会 存在 的 人 出 发 理解 人 的 “类 本 质 *， 把 自由 自觉 的 实践 活 
动 理解 为 人 的 “类 本 质 *”。 实 践 活动 首先 体现 的 是 人 与 目 然 的 否 宋 性 统一 


关系 ， 它 意味 着 人 超越 了 动物 封 团 的、 单一 的 生存 方式 ， 通 过 人 与 对 象 
本 质 的 相互 交换 ， 向 整个 世界 保持 开放 态度 ， 从 而 形成 整个 世界 的 一 体 
性 的 内 在 关系 ， 无 论 是 人 与 目 然 的 关系 ， 还 是 人 与 他 人 的 关系 ， 都 呈现 
出 一 种 特殊 的 一 体 性 关系 。 


数字 文明 是 由 新 秩序 众生 的 新 型 文明 ， 其 最 本 质 的 特征 是 信任 和 共 
译 社会 。 其 中 信任 为 这 个 时 代 带 来 的 是 生产 和 生活 方式 的 变革 ， 信 任 的 
建立 使 得 社会 秩序 从 封 财 走 癌 了 包容 和 开放 ， 为 人 的 全 面目 由 发 展 提供 
了 一 个 无 限 的 空间 。 共 享 社会 同时 带 来 了 生产 方式 和 分 配方 式 的 变 单 ， 
共享 的 规律 是 在 关注 普遍 收益 的 同时 更 强调 平等 性 。 共 享 关注 的 是 社会 
所 有 人 的 利益 ， 不 是 个 别人 物 、 某 些 阶 层 或 团体 的 利益 。 共 胖 社 会 使 得 
全 社会 的 个 体 之 间 建 立 了 联系 ， 从 而 呈现 出 特殊 的 一 体 性 。 此 外 ， 数 字 
文明 的 现实 体现 就 是 产生 了 数据 治理 文明 ， 这 种 文明 推动 了 治理 主体 和 
治理 结构 的 改变 ， 是 一 种 强调 以 人 为 中 心 的 发 展 理念 ， 其 用 展 的 最 终 价 
值 是 使 人 的 需要 得 到 充分 的 满足 ， 实 现 人 的 全 面目 由 发 展 。 


数字 文明 的 现实 意义 是 共同 体 理论 范式 的 重 构 。 在 经 济 全 球 化 背景 
下 ， 人 类 社会 作为 一 个 相互 依存 的 共同 体 已 经 成 为 共识 ， 构 建 “网 络 空 
间 人 类 命运 共同 体 ” 已 成 为 全 社会 面临 的 一 个 共性 问题 。 数 字 改 变 了 人 
类 的 生产 生活 方式 ， 数 字 文 明 带 来 的 章 命 性 变革 已 经 像 空气 一 样 ， 渗 透 
在 我 们 生活 中 每 个 角落 ， 将 社会 个 体 串 联 起 来 ， 构 建 起 了 “你 中 有 我 ， 
我 中 有 你 ?的 格局 。 由 此 ， 数 字 文 明成 为 构建 “网 络 空间 人 类 命运 共同 
体 ” 的 实现 路 径 。 


马 死 思 共 同体 思想 是 在 深刻 批判 资本 主义 社会 刺 问 基础 上 提出 的 关 
于 人 类 社会 形态 发 展 的 理论 ， 本 质 上 属于 社会 形态 的 研究 范式 ， 着 力 回 
答 人 在 不 同 的 共同 体形 态 下 生存 的 状态 ， 揭 示 了 人 发 展 的 规律 性 及 其 历 
史 性 ， 致 力 于 探求 最 为 理想 的 人 类 生存 的 社会 形态 。 数 字 文 明 时 代 的 网 
络 空 间 人 类 命运 共同 体 思想 则 属于 人 类 文明 研究 范式 ， 主 要 回答 人 类 文 
明 在 何 种 状态 下 才能 存续 和 发 展 ， 包 括 如 何 处 理 人 类 社会 内 部 不 同 国 家 


不 同 民 族 之 间 、 人 类 与 目 然 之 间 的 关系 ， 以 及 怎样 才能 达到 高 层次 的 人 
类 文明 生存 状态 。 从 范 陈 的 角度 看 ， 从 马 死 思 的 共同 体 思 想到 网 络 空间 
人 类 命运 共同 体 思想 ， 实 现 的 不 仅 是 理论 的 路 越 ， 也 推进 了 共同 体 理论 
范式 的 重 构 。 共 同体 理论 范式 的 重 构 主 要 体现 在 目标 重 构 、 重 心 重 构 、 
回 度 重 构 、 思 维 重 构 四 个 方面 。 


在 目标 重 构 方面 ， 实 现 了 从 规划 赣 图 到 现实 方案 的 转变 。 实 现 “ 真 
正 的 共同 体 ” 是 马克 思 共 同体 思想 的 理想 化 状态 ， 这 个 阶段 的 共同 体 只 
征 停留 在 一 个 理想 蓝图 阶段 。 网 络 空间 人 类 命运 共同 体 思想 则 是 在 人 类 
面临 现实 而 严峻 的 挑战 面前 提出 的 关于 人 类 文明 发 展 的 新 思想 ， 目 的 在 
于 把 马 元 思 共 同体 思想 的 理想 目标 现实 化 、 具 体 化 ， 使 其 既 有 理想 的 目 
标 ， 也 有 具体 的 路 径 。 


在 重心 重 构 方面 ， 实 现 了 从 制度 章 命 到 全 球 治理 的 转变 。 制 度 的 变 
革 推 动 了 社会 形态 的 更 些 ， 实 现 “ 真 正 的 共同 体 ” 是 以 终结 不 符合 当下 社 
会 发 展 的 制度 为 前 提 。 但 解决 危及 人 类 生存 的 全 球 性 问题 不 能 只 依靠 全 
球 范 围 内 的 制度 革命 来 解决 ， 更 应 绢 焦 于 和 人 类 文明 存续 紧密 相连 的 全 
球 治理 的 改革 和 完善 。 


在 回 度 重 构 方 面 ， 实 现 了 从 单一 问 度 癌 多 重 同 度 的 转弯。 马 殉 思 主 
要 是 从 共同 体形 态 变 迁 的 同 度 探讨 人 的 问题 的 根本 性 解决 方 采 。 网 络 空 
间 人 类 命运 共同 体 是 一 个 从 多 回 度 角度 构建 禾 瘟 多 领域 、 具 有 多 层次 、 
体现 多 方位 的 综合 性 、 立 体型 共同 体 。 利 益 共 享 、 责 任 共 担 ， 为 打造 命 
运 共 同体 提供 重要 基础 和 必由之路 。 


在 思维 重 构 方面 ， 实 现 了 从 深刻 批判 到 共生 共 赢 的 转变 。 深 刻 批 判 
资本 主义 “虚幻 的 共同 体 ” 是 马克 思 提 出 “真正 的 共同 体 ” 理 想 的 内 在 逻 
辑 。 网 络 空 间 人 类 命运 共同 体 思 想 主张 构建 具有 包容 性 的 共生 共 启 共同 
体 。 网 络 空 间 人 类 命运 共同 体 主张 摆脱 源 自 资本 主义 工业 文明 中 的 征服 
目 然 的 对 抗 思维 ， 牢 固 树 立马 重 自然 、 顺 应 自然 、 保 护 上 自然 的 意识 ， 坚 


持 走 绿色 、 低 碳 、 循 环 、 可 持续 发 展 之 路 ， 实 现世 界 的 可 持续 发 展 。 


网 络 空间 人 类 命运 共同 体 以 世界 文明 和 人 的 自由 全 面 发 展 为 最 高 价 
值 追求 。 网 络 己 经 把 世界 连 成 一 个 不 可 分 割 的 整体 ， 世 界 各 国之 间 的 贸 
易 往 来 和 文化 交往 因为 网 络 而 更 加 频繁 和 密切 。 建 构 网 络 空间 命运 共同 
体 是 把 世界 人 民 作 为 价值 的 出 发 点 和 落脚 点 ， 真 正 让 世界 人 民 以 网 络 空 
间 为 载体 ， 吸 收 和 借鉴 人 类 历史 发 展 的 精神 财富 和 文化 精华 。 网 络 的 运 
用 和 发 展 客观 上 极 大 地 促进 了 世界 文明 传播 和 世界 民族 大 融合 ， 世 界 人 
民 的 交流 和 共 孚 也 极 大 地 促进 了 各 民族 文化 的 传承 和 创新 ， 使 人 类 文明 
进入 一 个 新 的 发 展 阶段 。 同 时 ， 建 构 一 个 文明 、 开 放 、 共 享 的 网 络 空间 
命运 共同 体 是 建立 在 平等 、 和 谐 、 正 义 基础 上 的 。 在 网 络 的 特定 发 展 空 
间 里 ， 作 为 个 体 的 人 的 价值 诉求 也 是 永恒 的 ， 妃 求 目 由 全 面 发 展 是 不 变 
的 追求 。 网 络 作为 全 球 化 发 展 和 以 市 场 经 济 为 基础 的 一 种 发 展 新 形式 和 
新 阶段 ， 如 何 摆 脱 “ 资 本 ”和 “ 物 ” 的 剥 前 和 压榨 ， 如 何 让 人 类 真正 实现 个 
性 的 自由 ， 建 构 网 络 空 间 命运 共同 体 的 思想 正 是 “解锁 之 钥 ”。 网 络 产 业 
和 网 络 技术 的 发 展 都 是 以 市 场 经 济 为 主导 的 ， 建 构 网 络 空间 命运 共同 
体 ， 加 强 网 络 的 综合 治理 ， 实 质 上 就 是 建构 一 种 合理 的 新 型 市 场 关 系 ， 
使 人 民 成 为 网 络 的 主人 ， 使 人 民 在 网 络 空间 里 当家 作 主 ， 真 正 实现 人 的 
目 由 全 面 发 展 。 
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后 让 


块 数据 的 研究 已 经 进入 4.0 时 代 。 回 顾 自 2013 年 以 来 的 整个 研究 历 
程 ， 块 数据 已 经 从 一 个 由 大 数据 战略 重 扣 实验 室 提出 的 概念 ， 成 为 近年 
来 我 国 在 大 数据 理论 创新 和 实践 创新 方面 的 重要 制高点 ， 块 数据 已 经 从 
最 初 一 个 基于 社会 学 研究 的 假设 ， 成 为 被 大 数据 技术 专业 领域 所 熟知 并 
不 断 应 用 的 重要 理论 ， 因 为 块 数据 ， 甚 至 催生 了 一 场 治 理 领域 的 “新 风 
肾 ” 一 一 治理 大 数据 与 大 数据 治理 ， 并 使 它 的 实现 和 兴起 成 为 可 能 。 今 
天 ， 块 数据 4.0 以 人 工 智 能 时 代 的 激活 数据 学 为 主题 ， 深 度 研 究 激活 数 
所 学 的 运行 机 理 以 及 应 用 场景 ， 这 不 仅仅 是 研究 的 延续 ， 更 是 一 次 全 新 
的 理论 跃升 。 


“激活 数据 学 ?是 时 任 贵 州 省 委 冲 委 、 贯 阳 市 委 书 记 陈 刚 同 志 在 2015 
年 12 月 1 日 会 见 微软 亚 训 研究 院 和 常务 副 院 长 马 维 瑞 博士 时 提出 的 。2017 
年 5 月 22 日 ， 陈 刚 同 志 又 对 “激活 数据 学 ?进行 专题 指导 ， 提 出 了 一 系列 
重要 观点 ， 为 《 块 数据 4.0》 的 研究 呐 定 了 坚实 的 基础 。 诅 活 数据 学 是 
以 充分 发 挥 人 机 群体 智能 为 核心 ， 综 合 运用 数据 科学 、 生 命 科学 、 社 会 
科学 、 伦 理学 等 提出 的 海量 数据 存储 、 处 理 和 利用 的 解决 方案 。 块 数据 
就 像 是 一 个 脑 神经 元 ， 而 激活 数据 学 则 是 解决 100 亿 个 脑 神 经 元 怎样 组 
成 大 脑 的 数据 库 构 染 系 统 ， 并 将 成 为 未 来 数据 库 构 架 系 统 的 核心 价值 取 
问 。 激 活 数据 学 既是 进行 多 维度 大 数据 分 析 的 方法 论 ， 也 是 基于 复杂 理 
论 的 大 数据 研究 新 范式 。 


“激活 数据 学 ?的 提出 ， 既 是 基于 现实 的 ， 更 是 面 问 未 来 的 。 在 小 数 
据 时 代 ， 数 据 越 大 ， 价 值 越 大 ， 而 在 大 数据 时 代 ， 数 据 越 大 ， 价 值 越 
小 。 数 据 迅 狐 膀 胀 将 使 “数据 拥 增 ? 现 象 日 蔓 普 届 ， 并 成 为 困扰 人 类 的 重 
要 社会 问题 之 一 。 面 对 海量 数据 的 产生 ， 我 们 如 何 发 展 人 工 智能 ， 如 何 


利用 人 工 智 能 为 人 类 解决 庞杂 的 数据 难题 已 成 为 大 数据 研究 的 热点 和 难 
点 。 激 活 数 据 学 束 是 基于 当下 的 数据 时 代 背 景 ， 以 复杂 理论 为 基础 来 探 
讨 海量 数据 拥堵 的 解雇 方案 的 学 科 。 其 内 在 的 研究 机 理 是 ， 从 条 数据 到 
块 数据 ， 再 从 块 数据 到 数据 库 构 架 系 统 。 条 数据 永远 只 会 做 增 量 ， 这 也 
是 造成 数据 拥堵 的 原因 所 在 。 块 数据 通过 关联 融合 ， 开 始 做 减 量 ， 剔 除 
无 效 数据 。 但 即便 如 此 ， 问 题 还 远 远 没有 解决 ， 我 们 需要 一 种 更 加 高 效 
的 数据 存储 、 处 理 和 利用 方式 ， 它 的 制造 成 本 、 维 护 成 本 、 运 行 成 本 要 
降 到 最 低 ， 否 则 ， 数 据 拥 墙 带 来 的 灾难 依然 无 法 避免 。 这 才 是 激活 数据 
学 要 重点 解决 的 问题 。 那 么 ， 激 活 数 据 学 是 通过 什么 来 解决 这 个 问题 

呢 ? 数 据 搜索 、 关 联 融 合 、 自 激活 、 热 点 减 量 化 和 群体 智能 这 5 大 核心 
构架 技术 ， 将 成 为 未 来 数据 库 构 架 系 统 的 重要 文 撑 。 其 核心 是 把 线 上 的 
机 器 和 线 下 的 人 进行 重 混 ， 也 就 是 山 文 :凯利 讲 的 remakes， 是 指 人 与 机 
器 将 共同 完成 一 场 新 的 大 分 工 、 大 调整 ， 人 类 社会 将 进入 人 脑 + 电 脑 的 
云 脑 时 代 。 


本 书 是 根据 陈刚 同志 关于 “ 诉 活 数据 学 ?的 最 新 观点 ， 在 《 块 数据 》 
《 块 数据 2.0》《 块 数据 3.0》 基 础 上 推出 的 又 一 大 数据 理论 创新 成 果 。 
大 数据 战略 重点 实验 室 汇聚 了 一 批 专业 研究 者 ， 对 《 块 数据 4.0》 进 行 
了 集中 研讨 和 深化 。 在 本 书 的 研究 和 写作 过 程 中 ， 陈 刚 同志 提出 总 体 思 
路 和 核心 观点 ， 连 玉 明 对 本 书 的 框架 体系 进行 了 忆 体 设计 ， 朱 闫 蕊 、 武 
建 忠 细 化 主题 思想 ， 宋 青 、 胡 海 末 、 宋 希 贤 形成 提纲 和 组 织 编写 ， 主 要 
由 连 玉 明 、 朱 颖 慧 、 武 建 忠 、 宋 育 、 衣 海 荣 、 宋 希 质 、 张 俊 立 、 张 龙 
翔 、 范 贤 旦 、 龙 荣 远 、 呐 倩 、 邹 涛 、 翟 斌 、 郑 婷 、 陈 威 、 何 露 、 姜 菇 、 
陈 鹏 、 明 亚 务 、 田 伴 梅 负责 撰写 ， 宋 希 贰 负责 统 稿 ， 连 玉 明 、 朱 额 意 、 
武 建 忠 、 张 俊 立 负 员 审 稿 。 在 本 书写 作 过 程 中 ， 陈 刚 同志 多 次 提出 前 瞻 
性 和 指导 性 的 建议 ， 进 一 步 丰富 了 本 书 的 轧 想 体系 和 理论 体系 。 北 奈 市 
人 大 名 委 会 副 主 任 、 致 公 党 北京 市 委 主 委 闫 傲 趾 ， 贵 州 省 委 冲 委 、 负 务 
副 省 长 、 省 政府 党 组 副 书 记 、 贯 阳 市 委 书 记 李 再 勇 ， 北 各 市 科学 技术 委 
员 会 党 组 书记 、 主 任 许 强 ， 贯 阳 市 委 副 书记 、 市 人 民政 府 市 长 陈 受 ， 贯 
阳 市 委 常 委 、 秘 书 长 、 统 战 部 部 长 肾 雪松 ， 贯 阳 市 委 和 常委 、 常 务 副 市 长 


人 徐 吴 ， 对 本 书页 献 出 了 大 量 前 上 脆性 的 思想 和 观点 。 此 外 ， 中 信 出 版 集团 
前 沿 社 社 长 将 永 军 组 织 多 名 编辑 精心 编校 、 精 心 设计 ， 保 证 了 本 书 如 期 
出 版 。 在 此 一 并 表示 衷心 的 感谢 ! 


对 “激活 数据 学 ?展开 的 研究 是 全 新 的 、 复 杂 的 、 路 界 的 ， 所 面临 的 
困难 不 仅仅 是 知识 障碍 与 局 限 ， 更 多 的 是 来 自 对 未 来 友 展 以 及 根本 规律 
认 知 与 决断 的 突破 。 同 时 ， 在 本 书 成 稿 的 过 程 中 ， 由 于 闭 者 水 平 有 限 、 
时 间 人 仓促， 难免 有 距 漏 之 处 ， 恳 请 读者 批评 指正 。 


大 数据 战略 重点 实验 室 
2018 年 3 月 3 日 于 北京 


